llama: fix llama-model-saver (#20503)

* llama : add fd-based model loading via llama_model_load_from_fd * llama : address review feedback for fd-based model loading * llama : use FILE pointer instead of fd in public API * llama : use FILE pointer consistently, address review feedback * fixup * fix tensor names * fix llama-model-saver * roundtrip tests * fixup * refactor tests * fix prints * fix model saving * fix CI, disable Chameleon * print seed --------- Co-authored-by: Siddhesh2377 <siddheshsonar2377@gmail.com>
2026-05-19 08:00:25 +00:00 · 2026-03-25 11:53:16 +01:00 · 2026-03-25 11:53:16 +01:00 · 36dafba5c4
commit 36dafba5c4
parent 69e0ecef06
16 changed files with 338 additions and 99 deletions
--- a/src/llama-quant.cpp
+++ b/src/llama-quant.cpp
@ -859,7 +859,7 @@ static void llama_model_quantize_impl(const std::string & fname_inp, const std::

    std::vector<std::string> splits = {};
    llama_model_loader ml(/*metadata*/ nullptr, /*set_tensor_data*/ nullptr, /*set_tensor_data_ud*/ nullptr,
-        fname_inp, splits, use_mmap, /*use_direct_io*/ false, /*check_tensors*/ true, /*no_alloc*/ false, kv_overrides, nullptr);
+        fname_inp, splits, /*file*/ nullptr, use_mmap, /*use_direct_io*/ false, /*check_tensors*/ true, /*no_alloc*/ false, kv_overrides, nullptr);
    ml.init_mappings(false); // no prefetching

    llama_model model(llama_model_default_params());