Added support for Q2K, IQ1s, IQ4NL quantization types

2025-09-10 08:04:34 +00:00 · 2025-03-04 15:22:55 +00:00 · 2025-03-04 15:22:55 +00:00 · 2f049b8428
commit 2f049b8428
parent e2cda4cfa0
4 changed files with 551 additions and 218 deletions
--- a/common/common.cpp
+++ b/common/common.cpp
@ -901,13 +901,17 @@ static bool assign_layers_to_device(
        float t_read_ram_cpu = 0.0f;

        float t_calc_cpu = (
-            master.model_flops.layer_f32_f32 / (dev.cpu_props.flops_f32_f32 * 1e9 + EPS) +
-            master.model_flops.layer_f16_f32 / (dev.cpu_props.flops_f16_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q4k_f32 / (dev.cpu_props.flops_q4k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q50_f32 / (dev.cpu_props.flops_q50_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q5k_f32 / (dev.cpu_props.flops_q5k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q6k_f32 / (dev.cpu_props.flops_q6k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q80_f32 / (dev.cpu_props.flops_q80_f32 * 1e9 + EPS)) * 1000; // in ms
+            master.model_flops.layer_f32_f32   / (dev.cpu_props.flops_f32_f32 * 1e9 + EPS) +
+            master.model_flops.layer_f16_f32   / (dev.cpu_props.flops_f16_f32 * 1e9 + EPS) +
+            master.model_flops.layer_q2k_f32   / (dev.cpu_props.flops_q2k_f32 * 1e9 + EPS) +
+            master.model_flops.layer_q4k_f32   / (dev.cpu_props.flops_q4k_f32 * 1e9 + EPS) +
+            master.model_flops.layer_q5k_f32   / (dev.cpu_props.flops_q5k_f32 * 1e9 + EPS) +
+            master.model_flops.layer_q6k_f32   / (dev.cpu_props.flops_q6k_f32 * 1e9 + EPS) +
+            master.model_flops.layer_q50_f32   / (dev.cpu_props.flops_q50_f32 * 1e9 + EPS) +
+            master.model_flops.layer_q80_f32   / (dev.cpu_props.flops_q80_f32 * 1e9 + EPS) +
+            master.model_flops.layer_iq1s_f32  / (dev.cpu_props.flops_iq1s_f32 * 1e9 + EPS)+
+            master.model_flops.layer_iq4nl_f32 / (dev.cpu_props.flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
+
        float t_kv_cpy_cpu = dev.memory.mem_cpy_delay; // in ms
        // t_read_ram_cpu = b_prime / (dev.memory.cpu_read_ram_bw * 1e9) * 1000; // in ms

@ -921,24 +925,32 @@ static bool assign_layers_to_device(

            if (dev.gpu_support.metal) {
                t_calc_gpu = (
-                    master.model_flops.layer_f32_f32 / (dev.gpu_props.metal_flops_f32_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_f16_f32 / (dev.gpu_props.metal_flops_f16_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q4k_f32 / (dev.gpu_props.metal_flops_q4k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q50_f32 / (dev.gpu_props.metal_flops_q50_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q5k_f32 / (dev.gpu_props.metal_flops_q5k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q6k_f32 / (dev.gpu_props.metal_flops_q6k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q80_f32 / (dev.gpu_props.metal_flops_q80_f32 * 1e9 + EPS)) * 1000; // in ms
+                    master.model_flops.layer_f32_f32   / (dev.gpu_props.metal_flops_f32_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_f16_f32   / (dev.gpu_props.metal_flops_f16_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q2k_f32   / (dev.gpu_props.metal_flops_q2k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q4k_f32   / (dev.gpu_props.metal_flops_q4k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q5k_f32   / (dev.gpu_props.metal_flops_q5k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q6k_f32   / (dev.gpu_props.metal_flops_q6k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q50_f32   / (dev.gpu_props.metal_flops_q50_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q80_f32   / (dev.gpu_props.metal_flops_q80_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_iq1s_f32  / (dev.gpu_props.metal_flops_iq1s_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_iq4nl_f32 / (dev.gpu_props.metal_flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
+
                t_kv_cpy_gpu = dev.gpu_props.metal_mem_cpy_delay; // in ms
                // t_read_ram_gpu = b_prime / (dev.gpu_props.metal_read_vram_bw * 1e9) * 1000; // in ms
            } else {
                t_calc_gpu = (
-                    master.model_flops.layer_f32_f32 / (dev.gpu_props.cuda_flops_f32_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_f16_f32 / (dev.gpu_props.cuda_flops_f16_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q4k_f32 / (dev.gpu_props.cuda_flops_q4k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q50_f32 / (dev.gpu_props.cuda_flops_q50_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q5k_f32 / (dev.gpu_props.cuda_flops_q5k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q6k_f32 / (dev.gpu_props.cuda_flops_q6k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q80_f32 / (dev.gpu_props.cuda_flops_q80_f32 * 1e9 + EPS)) * 1000; // in ms
+                    master.model_flops.layer_f32_f32   / (dev.gpu_props.cuda_flops_f32_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_f16_f32   / (dev.gpu_props.cuda_flops_f16_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q2k_f32   / (dev.gpu_props.cuda_flops_q2k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q4k_f32   / (dev.gpu_props.cuda_flops_q4k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q5k_f32   / (dev.gpu_props.cuda_flops_q5k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q6k_f32   / (dev.gpu_props.cuda_flops_q6k_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q50_f32   / (dev.gpu_props.cuda_flops_q50_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q80_f32   / (dev.gpu_props.cuda_flops_q80_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_iq1s_f32  / (dev.gpu_props.cuda_flops_iq1s_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_iq4nl_f32 / (dev.gpu_props.cuda_flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
+
                t_kv_cpy_gpu = dev.gpu_props.cuda_mem_cpy_delay; // in ms
                // t_read_ram_gpu = b_prime / (dev.gpu_props.cuda_read_vram_bw * 1e9) * 1000; // in ms
            }
@ -1113,13 +1125,16 @@ static bool assign_layers_to_device(

            if (m == 0) {
                kappa = (
-                    dev.model_flops.layer_f32_f32 / (dev.cpu_props.flops_f32_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_f16_f32 / (dev.cpu_props.flops_f16_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q4k_f32 / (dev.cpu_props.flops_q4k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q50_f32 / (dev.cpu_props.flops_q50_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q5k_f32 / (dev.cpu_props.flops_q5k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q6k_f32 / (dev.cpu_props.flops_q6k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q80_f32 / (dev.cpu_props.flops_q80_f32 * 1e9 + EPS)) * 1000; // in ms
+                    dev.model_flops.layer_f32_f32   / (dev.cpu_props.flops_f32_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_f16_f32   / (dev.cpu_props.flops_f16_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q2k_f32   / (dev.cpu_props.flops_q2k_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q4k_f32   / (dev.cpu_props.flops_q4k_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q5k_f32   / (dev.cpu_props.flops_q5k_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q6k_f32   / (dev.cpu_props.flops_q6k_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q50_f32   / (dev.cpu_props.flops_q50_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q80_f32   / (dev.cpu_props.flops_q80_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_iq1s_f32  / (dev.cpu_props.flops_iq1s_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_iq4nl_f32 / (dev.cpu_props.flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms

                // kappa += (bi / n_vocab + bo) / (dev.memory.cpu_read_ram_bw * 1e9) * 1000; // in ms

@ -1766,33 +1781,25 @@ struct llama_model_params llama_model_params_from_gpt_params(const gpt_params &
    return mparams;
 }

-static ggml_type kv_cache_type_from_str(const std::string & s) {
-    if (s == "f32") {
-        return GGML_TYPE_F32;
-    }
-    if (s == "f16") {
-        return GGML_TYPE_F16;
-    }
-    if (s == "q8_0") {
-        return GGML_TYPE_Q8_0;
-    }
-    if (s == "q4_0") {
-        return GGML_TYPE_Q4_0;
-    }
-    if (s == "q4_1") {
-        return GGML_TYPE_Q4_1;
-    }
-    if (s == "iq4_nl") {
-        return GGML_TYPE_IQ4_NL;
-    }
-    if (s == "q5_0") {
-        return GGML_TYPE_Q5_0;
-    }
-    if (s == "q5_1") {
-        return GGML_TYPE_Q5_1;
-    }
+const std::vector<ggml_type> kv_cache_types = {
+    GGML_TYPE_F32,
+    GGML_TYPE_F16,
+    GGML_TYPE_BF16, // Added BF16 data type support
+    GGML_TYPE_Q8_0,
+    GGML_TYPE_Q4_0,
+    GGML_TYPE_Q4_1,
+    GGML_TYPE_IQ4_NL,
+    GGML_TYPE_Q5_0,
+    GGML_TYPE_Q5_1,
+};

-    throw std::runtime_error("Invalid cache type: " + s);
+static ggml_type kv_cache_type_from_str(const std::string & s) {
+    for (const auto & type : kv_cache_types) {
+        if (ggml_type_name(type) == s) {
+            return type;
+        }
+    }
+    throw std::runtime_error("Unsupported cache type: " + s);
 }

 struct llama_context_params llama_context_params_from_gpt_params(const gpt_params & params) {