fix n_embd cannot be divided by quantized block size

2025-09-10 00:04:34 +00:00 · 2025-06-03 14:06:31 +04:00 · 2025-06-03 14:06:31 +04:00 · b30f749e5e
commit b30f749e5e
parent 421b3deca5
2 changed files with 32 additions and 5 deletions
--- a/common/common.cpp
+++ b/common/common.cpp
@ -1588,6 +1588,7 @@ struct llama_init_result llama_init_from_gpt_params(gpt_params & params) {

    if (n_world == 1) {
        uint32_t n_layers = llama_model_n_layers(model);
+        
        // assign all layers to this device
        params.n_layer_window[0]  = n_layers;
        cparams.n_layer_window[0] = n_layers;
@ -1596,6 +1597,8 @@ struct llama_init_result llama_init_from_gpt_params(gpt_params & params) {

 #if defined(GGML_USE_METAL) || defined(GGML_USE_CUDA)
        params.n_gpu_layers = std::min((int32_t)n_layers, params.n_gpu_layers);
+        cparams.n_gpu_layers = params.n_gpu_layers;
+        mparams.n_gpu_layers = params.n_gpu_layers;
 #endif

    } else {