diff --git a/common/common.cpp b/common/common.cpp
index 33523467..a37dfeea 100644
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -901,16 +901,18 @@ static bool assign_layers_to_device(
         float t_read_ram_cpu = 0.0f;
 
         float t_calc_cpu = (
-            master.model_flops.layer_f32_f32   / (dev.cpu_props.flops_f32_f32 * 1e9 + EPS) +
-            master.model_flops.layer_f16_f32   / (dev.cpu_props.flops_f16_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q2k_f32   / (dev.cpu_props.flops_q2k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q4k_f32   / (dev.cpu_props.flops_q4k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q5k_f32   / (dev.cpu_props.flops_q5k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q6k_f32   / (dev.cpu_props.flops_q6k_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q50_f32   / (dev.cpu_props.flops_q50_f32 * 1e9 + EPS) +
-            master.model_flops.layer_q80_f32   / (dev.cpu_props.flops_q80_f32 * 1e9 + EPS) +
-            master.model_flops.layer_iq1s_f32  / (dev.cpu_props.flops_iq1s_f32 * 1e9 + EPS)+
-            master.model_flops.layer_iq4nl_f32 / (dev.cpu_props.flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
+            master.model_flops.layer_f32_f32   / (dev.cpu_props.flops_f32_f32   * 1e9 + EPS) +
+            master.model_flops.layer_f16_f32   / (dev.cpu_props.flops_f16_f32   * 1e9 + EPS) +
+            master.model_flops.layer_q2k_f32   / (dev.cpu_props.flops_q2k_f32   * 1e9 + EPS) +
+            master.model_flops.layer_q4k_f32   / (dev.cpu_props.flops_q4k_f32   * 1e9 + EPS) +
+            master.model_flops.layer_q5k_f32   / (dev.cpu_props.flops_q5k_f32   * 1e9 + EPS) +
+            master.model_flops.layer_q6k_f32   / (dev.cpu_props.flops_q6k_f32   * 1e9 + EPS) +
+            master.model_flops.layer_iq2xxs_f32/ (dev.cpu_props.flops_iq2xxs_f32* 1e9 + EPS) +
+            master.model_flops.layer_q50_f32   / (dev.cpu_props.flops_q50_f32   * 1e9 + EPS) +
+            master.model_flops.layer_q80_f32   / (dev.cpu_props.flops_q80_f32   * 1e9 + EPS) +
+            master.model_flops.layer_iq1s_f32  / (dev.cpu_props.flops_iq1s_f32  * 1e9 + EPS) +
+            master.model_flops.layer_iq4nl_f32 / (dev.cpu_props.flops_iq4nl_f32 * 1e9 + EPS) +
+            master.model_flops.layer_iq1m_f32  / (dev.cpu_props.flops_iq1m_f32  * 1e9 + EPS) ) * 1000; // in ms
 
         float t_kv_cpy_cpu = dev.memory.mem_cpy_delay; // in ms
         // t_read_ram_cpu = b_prime / (dev.memory.cpu_read_ram_bw * 1e9) * 1000; // in ms
@@ -925,31 +927,35 @@ static bool assign_layers_to_device(
 
             if (dev.gpu_support.metal) {
                 t_calc_gpu = (
-                    master.model_flops.layer_f32_f32   / (dev.gpu_props.metal_flops_f32_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_f16_f32   / (dev.gpu_props.metal_flops_f16_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q2k_f32   / (dev.gpu_props.metal_flops_q2k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q4k_f32   / (dev.gpu_props.metal_flops_q4k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q5k_f32   / (dev.gpu_props.metal_flops_q5k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q6k_f32   / (dev.gpu_props.metal_flops_q6k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q50_f32   / (dev.gpu_props.metal_flops_q50_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q80_f32   / (dev.gpu_props.metal_flops_q80_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_iq1s_f32  / (dev.gpu_props.metal_flops_iq1s_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_iq4nl_f32 / (dev.gpu_props.metal_flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
+                    master.model_flops.layer_f32_f32    / (dev.gpu_props.metal_flops_f32_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_f16_f32    / (dev.gpu_props.metal_flops_f16_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q2k_f32    / (dev.gpu_props.metal_flops_q2k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q4k_f32    / (dev.gpu_props.metal_flops_q4k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q5k_f32    / (dev.gpu_props.metal_flops_q5k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q6k_f32    / (dev.gpu_props.metal_flops_q6k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_iq2xxs_f32 / (dev.gpu_props.metal_flops_iq2xxs_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q50_f32    / (dev.gpu_props.metal_flops_q50_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q80_f32    / (dev.gpu_props.metal_flops_q80_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_iq1s_f32   / (dev.gpu_props.metal_flops_iq1s_f32   * 1e9 + EPS) +
+                    master.model_flops.layer_iq4nl_f32  / (dev.gpu_props.metal_flops_iq4nl_f32  * 1e9 + EPS) +
+                    master.model_flops.layer_iq1m_f32   / (dev.gpu_props.metal_flops_iq1m_f32   * 1e9 + EPS) ) * 1000; // in ms
 
                 t_kv_cpy_gpu = dev.gpu_props.metal_mem_cpy_delay; // in ms
                 // t_read_ram_gpu = b_prime / (dev.gpu_props.metal_read_vram_bw * 1e9) * 1000; // in ms
             } else {
                 t_calc_gpu = (
-                    master.model_flops.layer_f32_f32   / (dev.gpu_props.cuda_flops_f32_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_f16_f32   / (dev.gpu_props.cuda_flops_f16_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q2k_f32   / (dev.gpu_props.cuda_flops_q2k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q4k_f32   / (dev.gpu_props.cuda_flops_q4k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q5k_f32   / (dev.gpu_props.cuda_flops_q5k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q6k_f32   / (dev.gpu_props.cuda_flops_q6k_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q50_f32   / (dev.gpu_props.cuda_flops_q50_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_q80_f32   / (dev.gpu_props.cuda_flops_q80_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_iq1s_f32  / (dev.gpu_props.cuda_flops_iq1s_f32 * 1e9 + EPS) +
-                    master.model_flops.layer_iq4nl_f32 / (dev.gpu_props.cuda_flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
+                    master.model_flops.layer_f32_f32    / (dev.gpu_props.cuda_flops_f32_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_f16_f32    / (dev.gpu_props.cuda_flops_f16_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q2k_f32    / (dev.gpu_props.cuda_flops_q2k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q4k_f32    / (dev.gpu_props.cuda_flops_q4k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q5k_f32    / (dev.gpu_props.cuda_flops_q5k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q6k_f32    / (dev.gpu_props.cuda_flops_q6k_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_iq2xxs_f32 / (dev.gpu_props.cuda_flops_iq2xxs_f32 * 1e9 + EPS) +
+                    master.model_flops.layer_q50_f32    / (dev.gpu_props.cuda_flops_q50_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_q80_f32    / (dev.gpu_props.cuda_flops_q80_f32    * 1e9 + EPS) +
+                    master.model_flops.layer_iq1s_f32   / (dev.gpu_props.cuda_flops_iq1s_f32   * 1e9 + EPS) +
+                    master.model_flops.layer_iq4nl_f32  / (dev.gpu_props.cuda_flops_iq4nl_f32  * 1e9 + EPS) +
+                    master.model_flops.layer_iq1m_f32   / (dev.gpu_props.cuda_flops_iq1m_f32   * 1e9 + EPS) ) * 1000; // in ms
 
                 t_kv_cpy_gpu = dev.gpu_props.cuda_mem_cpy_delay; // in ms
                 // t_read_ram_gpu = b_prime / (dev.gpu_props.cuda_read_vram_bw * 1e9) * 1000; // in ms
@@ -1125,17 +1131,18 @@ static bool assign_layers_to_device(
 
             if (m == 0) {
                 kappa = (
-                    dev.model_flops.layer_f32_f32   / (dev.cpu_props.flops_f32_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_f16_f32   / (dev.cpu_props.flops_f16_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q2k_f32   / (dev.cpu_props.flops_q2k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q4k_f32   / (dev.cpu_props.flops_q4k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q5k_f32   / (dev.cpu_props.flops_q5k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q6k_f32   / (dev.cpu_props.flops_q6k_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q50_f32   / (dev.cpu_props.flops_q50_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_q80_f32   / (dev.cpu_props.flops_q80_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_iq1s_f32  / (dev.cpu_props.flops_iq1s_f32 * 1e9 + EPS) +
-                    dev.model_flops.layer_iq4nl_f32 / (dev.cpu_props.flops_iq4nl_f32 * 1e9 + EPS)) * 1000; // in ms
-
+                    dev.model_flops.layer_f32_f32    / (dev.cpu_props.flops_f32_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_f16_f32    / (dev.cpu_props.flops_f16_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_q2k_f32    / (dev.cpu_props.flops_q2k_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_q4k_f32    / (dev.cpu_props.flops_q4k_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_q5k_f32    / (dev.cpu_props.flops_q5k_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_q6k_f32    / (dev.cpu_props.flops_q6k_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_iq2xxs_f32 / (dev.cpu_props.flops_iq2xxs_f32 * 1e9 + EPS) +
+                    dev.model_flops.layer_q50_f32    / (dev.cpu_props.flops_q50_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_q80_f32    / (dev.cpu_props.flops_q80_f32    * 1e9 + EPS) +
+                    dev.model_flops.layer_iq1s_f32   / (dev.cpu_props.flops_iq1s_f32   * 1e9 + EPS) +
+                    dev.model_flops.layer_iq4nl_f32  / (dev.cpu_props.flops_iq4nl_f32  * 1e9 + EPS) +
+                    dev.model_flops.layer_iq1m_f32   / (dev.cpu_props.flops_iq1m_f32   * 1e9 + EPS) ) * 1000; // in ms
                 // kappa += (bi / n_vocab + bo) / (dev.memory.cpu_read_ram_bw * 1e9) * 1000; // in ms
 
                 kappa += (bi / n_vocab) / (disk_speed[m] * 1e9) * 1000; // in ms
diff --git a/common/profiler.cpp b/common/profiler.cpp
index 269d5ba3..18b345a9 100644
--- a/common/profiler.cpp
+++ b/common/profiler.cpp
@@ -374,10 +374,12 @@ float device_inp_embd_delay(struct llama_model * model, enum ggml_type src0t, in
         case GGML_TYPE_Q5_K:
         case GGML_TYPE_Q6_K:
         case GGML_TYPE_Q8_K:
+        case GGML_TYPE_IQ2_XXS:
         case GGML_TYPE_Q5_0:
         case GGML_TYPE_Q8_0:
         case GGML_TYPE_IQ1_S:
         case GGML_TYPE_IQ4_NL:
+        case GGML_TYPE_IQ1_M:
             matrix_B = malloc((embd_size / ggml_blck_size(src0t) * ggml_type_size(src0t))); // The quantization block sizes are inconsistent for different quantization methods
             break;
         default:
@@ -1354,41 +1356,47 @@ static float device_compute_delay(struct device_info & dev_info, int n_layers, c
 #ifdef GGML_USE_CUDA
     struct gpu_props gpu = dev_info.gpu_props;
 
-    gpu_latency_per_layer += (double)n_flops.layer_f32_f32  / ((double)gpu.cuda_flops_f32_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_f16_f32  / ((double)gpu.cuda_flops_f16_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q2k_f32  / ((double)gpu.cuda_flops_q2k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q4k_f32  / ((double)gpu.cuda_flops_q4k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q5k_f32  / ((double)gpu.cuda_flops_q5k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q6k_f32  / ((double)gpu.cuda_flops_q6k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q50_f32  / ((double)gpu.cuda_flops_q50_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q80_f32  / ((double)gpu.cuda_flops_q80_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_iq1s_f32 / ((double)gpu.cuda_flops_iq1s_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_iq4nl_f32 / ((double)gpu.cuda_flops_iq4nl_f32 + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_f32_f32    / ((double)gpu.cuda_flops_f32_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_f16_f32    / ((double)gpu.cuda_flops_f16_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q2k_f32    / ((double)gpu.cuda_flops_q2k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q4k_f32    / ((double)gpu.cuda_flops_q4k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q5k_f32    / ((double)gpu.cuda_flops_q5k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q6k_f32    / ((double)gpu.cuda_flops_q6k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq2xxs_f32 / ((double)gpu.cuda_flops_iq2xxs_f32 + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q50_f32    / ((double)gpu.cuda_flops_q50_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q80_f32    / ((double)gpu.cuda_flops_q80_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq1s_f32   / ((double)gpu.cuda_flops_iq1s_f32   + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq4nl_f32  / ((double)gpu.cuda_flops_iq4nl_f32  + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq1m_f32   / ((double)gpu.cuda_flops_iq1m_f32   + EPS) / 1e9;
 #elif GGML_USE_METAL
     struct gpu_props gpu = dev_info.gpu_props;
 
-    gpu_latency_per_layer += (double)n_flops.layer_f32_f32  / ((double)gpu.metal_flops_f32_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_f16_f32  / ((double)gpu.metal_flops_f16_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q2k_f32  / ((double)gpu.metal_flops_q2k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q4k_f32  / ((double)gpu.metal_flops_q4k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q5k_f32  / ((double)gpu.metal_flops_q5k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q6k_f32  / ((double)gpu.metal_flops_q6k_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q50_f32  / ((double)gpu.metal_flops_q50_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_q80_f32  / ((double)gpu.metal_flops_q80_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_iq1s_f32 / ((double)gpu.metal_flops_iq1s_f32 + EPS) / 1e9;
-    gpu_latency_per_layer += (double)n_flops.layer_iq4nl_f32 / ((double)gpu.metal_flops_iq4nl_f32 + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_f32_f32    / ((double)gpu.metal_flops_f32_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_f16_f32    / ((double)gpu.metal_flops_f16_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q2k_f32    / ((double)gpu.metal_flops_q2k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q4k_f32    / ((double)gpu.metal_flops_q4k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q5k_f32    / ((double)gpu.metal_flops_q5k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q6k_f32    / ((double)gpu.metal_flops_q6k_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq2xxs_f32 / ((double)gpu.metal_flops_iq2xxs_f32 + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q50_f32    / ((double)gpu.metal_flops_q50_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_q80_f32    / ((double)gpu.metal_flops_q80_f32    + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq1s_f32   / ((double)gpu.metal_flops_iq1s_f32   + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq4nl_f32  / ((double)gpu.metal_flops_iq4nl_f32  + EPS) / 1e9;
+    gpu_latency_per_layer += (double)n_flops.layer_iq1m_f32   / ((double)gpu.metal_flops_iq1m_f32   + EPS) / 1e9;
 #endif
 
-    cpu_latency_per_layer += (double)n_flops.layer_f32_f32  / ((double)cpu.flops_f32_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_f16_f32  / ((double)cpu.flops_f16_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_q2k_f32  / ((double)cpu.flops_q2k_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_q4k_f32  / ((double)cpu.flops_q4k_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_q5k_f32  / ((double)cpu.flops_q5k_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_q6k_f32  / ((double)cpu.flops_q6k_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_q50_f32  / ((double)cpu.flops_q50_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_q80_f32  / ((double)cpu.flops_q80_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_iq1s_f32 / ((double)cpu.flops_iq1s_f32 + EPS) / 1e9;
-    cpu_latency_per_layer += (double)n_flops.layer_iq4nl_f32 / ((double)cpu.flops_iq4nl_f32 + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_f32_f32    / ((double)cpu.flops_f32_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_f16_f32    / ((double)cpu.flops_f16_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_q2k_f32    / ((double)cpu.flops_q2k_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_q4k_f32    / ((double)cpu.flops_q4k_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_q5k_f32    / ((double)cpu.flops_q5k_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_q6k_f32    / ((double)cpu.flops_q6k_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_iq2xxs_f32 / ((double)cpu.flops_iq2xxs_f32 + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_q50_f32    / ((double)cpu.flops_q50_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_q80_f32    / ((double)cpu.flops_q80_f32    + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_iq1s_f32   / ((double)cpu.flops_iq1s_f32   + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_iq4nl_f32  / ((double)cpu.flops_iq4nl_f32  + EPS) / 1e9;
+    cpu_latency_per_layer += (double)n_flops.layer_iq1m_f32   / ((double)cpu.flops_iq1m_f32   + EPS) / 1e9;
     double total_latency = 0.0f;
     
 #if defined(GGML_USE_METAL) || defined(GGML_USE_CUDA)
@@ -1400,16 +1408,18 @@ static float device_compute_delay(struct device_info & dev_info, int n_layers, c
     total_latency += cpu_latency_per_layer * n_layers;
 #endif
 
-    total_latency += (double)n_flops.output_f32_f32 / ((double)cpu.flops_f32_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_f16_f32 / ((double)cpu.flops_f16_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_q2k_f32 / ((double)cpu.flops_q2k_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_q4k_f32 / ((double)cpu.flops_q4k_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_q5k_f32 / ((double)cpu.flops_q5k_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_q6k_f32 / ((double)cpu.flops_q6k_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_q50_f32 / ((double)cpu.flops_q50_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_q80_f32 / ((double)cpu.flops_q80_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_iq1s_f32 / ((double)cpu.flops_iq1s_f32 + EPS) / 1e9;
-    total_latency += (double)n_flops.output_iq4nl_f32 / ((double)cpu.flops_iq4nl_f32 + EPS) / 1e9;
+    total_latency += (double)n_flops.output_f32_f32    / ((double)cpu.flops_f32_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_f16_f32    / ((double)cpu.flops_f16_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_q2k_f32    / ((double)cpu.flops_q2k_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_q4k_f32    / ((double)cpu.flops_q4k_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_q5k_f32    / ((double)cpu.flops_q5k_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_q6k_f32    / ((double)cpu.flops_q6k_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_iq2xxs_f32 / ((double)cpu.flops_iq2xxs_f32 + EPS) / 1e9;
+    total_latency += (double)n_flops.output_q50_f32    / ((double)cpu.flops_q50_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_q80_f32    / ((double)cpu.flops_q80_f32    + EPS) / 1e9;
+    total_latency += (double)n_flops.output_iq1s_f32   / ((double)cpu.flops_iq1s_f32   + EPS) / 1e9;
+    total_latency += (double)n_flops.output_iq4nl_f32  / ((double)cpu.flops_iq4nl_f32  + EPS) / 1e9;
+    total_latency += (double)n_flops.output_iq1m_f32   / ((double)cpu.flops_iq1m_f32   + EPS) / 1e9;
 
     total_latency *= 1000; // convert to ms
 
@@ -1665,588 +1675,664 @@ static float device_mem_copy_delay(struct device_info & dev_info, struct llama_m
 
 void device_print_props(struct device_info * dev_info_set, int n, struct llama_model * model, const struct llama_context_params cparams) {
     LOG_INF("\n-------------------------------------------------------------------------------------------\n");
-    LOG_INF("| Property                       ");
+    LOG_INF("| Property                        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| Rank %-8d", i);
         GGML_ASSERT((int)dev_info_set[i].rank == i);
     }
     LOG_INF("\n-------------------------------------------------------------------------------------------\n");
 
-    LOG_INF("| Device Name                    ");
+    LOG_INF("| Device Name                     ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.10s   ", dev_info_set[i].device_name);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Device OS                      ");
+    LOG_INF("| Device OS                       ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.10s   ", dev_info_set[i].device_os);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU Name                       ");
+    LOG_INF("| CPU Name                        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.10s   ", dev_info_set[i].cpu_props.name);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU Description                ");
+    LOG_INF("| CPU Description                 ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.10s   ", dev_info_set[i].cpu_props.description);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Number of CPU cores            ");
+    LOG_INF("| Number of CPU cores             ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10u   ", dev_info_set[i].cpu_props.cores);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (F32xF32, GFLOPS)    ");
+    LOG_INF("| CPU flops (F32xF32, GFLOPS)     ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_f32_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (F16xF32, GFLOPS)    ");
+    LOG_INF("| CPU flops (F16xF32, GFLOPS)     ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_f16_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (Q2K x F32, GFLOPS)  ");
+    LOG_INF("| CPU flops (Q2K x F32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_q2k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (Q4K x F32, GFLOPS)  ");
+    LOG_INF("| CPU flops (Q4K x F32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_q4k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (Q5K x F32, GFLOPS)  ");
+    LOG_INF("| CPU flops (Q5K x F32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_q5k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (Q6K x F32, GFLOPS)  ");
+    LOG_INF("| CPU flops (Q6K x F32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_q6k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (Q50 x F32, GFLOPS)  ");
+    LOG_INF("| CPU flops (IQ2XXS x F32, GFLOPS)");
+    for (int i = 0; i < n; ++i) {
+        LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_iq2xxs_f32);
+    }
+    LOG_INF("\n");
+
+    LOG_INF("| CPU flops (Q50 x F32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_q50_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (Q80 x F32, GFLOPS)  ");
+    LOG_INF("| CPU flops (Q80 x F32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_q80_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (IQ1S x F32, GFLOPS) ");
+    LOG_INF("| CPU flops (IQ1S x F32, GFLOPS)  ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_iq1s_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU flops (IQ4NL x F32, GFLOPS)");
+    LOG_INF("| CPU flops (IQ4NL x F32, GFLOPS) ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_iq4nl_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Physical Mem Total (GiB)       ");
+    LOG_INF("| CPU flops (IQ1M x F32, GFLOPS)  ");
+    for (int i = 0; i < n; ++i) {
+        LOG_INF("| %-10.1f   ", dev_info_set[i].cpu_props.flops_iq1m_f32);
+    }
+    LOG_INF("\n");
+
+    LOG_INF("| Physical Mem Total (GiB)        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.total_physical);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Physical Mem Available (GiB)   ");
+    LOG_INF("| Physical Mem Available (GiB)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.available_physical);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Used Mem Swappable (GiB)       ");
+    LOG_INF("| Used Mem Swappable (GiB)        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.used_can_swap);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Swap Mem Total (GiB)           ");
+    LOG_INF("| Swap Mem Total (GiB)            ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.total_swap);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Swap Mem Available (GiB)       ");
+    LOG_INF("| Swap Mem Available (GiB)        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.available_swap);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU RAM Read BW (GB/s)         ");
+    LOG_INF("| CPU RAM Read BW (GB/s)          ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.cpu_read_ram_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CPU KVCache Copy Time (ms/l)   ");
+    LOG_INF("| CPU KVCache Copy Time (ms/l)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].memory.mem_cpy_delay);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Disk Read Seq Speed (GB/s)     ");
+    LOG_INF("| Disk Read Seq Speed (GB/s)      ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].disk.read_seq_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Disk Write Seq Speed (GB/s)    ");
+    LOG_INF("| Disk Write Seq Speed (GB/s)     ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].disk.write_seq_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Disk Read Rnd Speed (GB/s)     ");
+    LOG_INF("| Disk Read Rnd Speed (GB/s)      ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].disk.read_rnd_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Disk Write Rnd Speed (GB/s)    ");
+    LOG_INF("| Disk Write Rnd Speed (GB/s)     ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].disk.write_rnd_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Metal                      ");
+    LOG_INF("| GPU Metal                       ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.metal);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU CUDA                       ");
+    LOG_INF("| GPU CUDA                        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.cuda);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Vulkan                     ");
+    LOG_INF("| GPU Vulkan                      ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.vulkan);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Kompute                    ");
+    LOG_INF("| GPU Kompute                     ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.kompute);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU BLAS                       ");
+    LOG_INF("| GPU BLAS                        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.gpublas);
     }
     LOG_INF("\n");
 
-    LOG_INF("| BLAS                           ");
+    LOG_INF("| BLAS                            ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.blas);
     }
     LOG_INF("\n");
 
-    LOG_INF("| SYCL                           ");
+    LOG_INF("| SYCL                            ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10d   ", dev_info_set[i].gpu_support.sycl);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Name                       ");
+    LOG_INF("| GPU Name                        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.10s   ", dev_info_set[i].gpu_props.name);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Description                ");
+    LOG_INF("| GPU Description                 ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.10s   ", dev_info_set[i].gpu_props.description);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Mem Free (GiB)             ");
+    LOG_INF("| GPU Mem Free (GiB)              ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].gpu_props.memory_free);
     }
     LOG_INF("\n");
 
-    LOG_INF("| GPU Mem Total (GiB)            ");
+    LOG_INF("| GPU Mem Total (GiB)             ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].gpu_props.memory_total);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal VRAM Read BW (GB/s)      ");
+    LOG_INF("| Metal VRAM Read BW (GB/s)       ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].gpu_props.metal_read_vram_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal KVCache Copy Time(ms/l)  ");
+    LOG_INF("| Metal KVCache Copy Time(ms/l)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].gpu_props.metal_mem_cpy_delay);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (F32xF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (F32xF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_f32_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (F16xF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (F16xF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_f16_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (Q2KxF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (Q2KxF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_q2k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (Q4KxF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (Q4KxF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_q4k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (Q5KxF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (Q5KxF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_q5k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (Q6KxF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (Q6KxF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_q6k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (Q50xF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (IQ2XXSxF32, GFLOPS)");
+    for (int i = 0; i < n; ++i) {
+        LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_iq2xxs_f32);
+    }
+    LOG_INF("\n");
+
+    LOG_INF("| Metal flops (Q50xF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_q50_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (Q80xF32, GFLOPS)  ");
+    LOG_INF("| Metal flops (Q80xF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_q80_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (IQ1SxF32, GFLOPS) ");
+    LOG_INF("| Metal flops (IQ1SxF32, GFLOPS)  ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_iq1s_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Metal flops (IQ4NLxF32, GFLOPS)");
+    LOG_INF("| Metal flops (IQ4NLxF32, GFLOPS) ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_iq4nl_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA VRAM Read BW (GB/s)       ");
+    LOG_INF("| Metal flops (IQ1MxF32, GFLOPS)  ");
+    for (int i = 0; i < n; ++i) {
+        LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.metal_flops_iq1m_f32);
+    }
+    LOG_INF("\n");
+
+    LOG_INF("| CUDA VRAM Read BW (GB/s)        ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].gpu_props.cuda_read_vram_bw);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA KVCache Copy Time (ms/l)  ");
+    LOG_INF("| CUDA KVCache Copy Time (ms/l)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.2f   ", dev_info_set[i].gpu_props.cuda_mem_cpy_delay);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (F32xF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (F32xF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_f32_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (F16xF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (F16xF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_f16_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (Q2KxF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (Q2KxF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_q2k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (Q4KxF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (Q4KxF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_q4k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (Q5KxF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (Q5KxF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_q5k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (Q6KxF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (Q6KxF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_q6k_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (Q50xF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (IQ2XXSxF32, GFLOPS) ");
+    for (int i = 0; i < n; ++i) {
+        LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_iq2xxs_f32);
+    }
+    LOG_INF("\n");
+
+    LOG_INF("| CUDA flops (Q50xF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_q50_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (Q80xF32, GFLOPS)   ");
+    LOG_INF("| CUDA flops (Q80xF32, GFLOPS)    ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_q80_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (IQ1SxF32, GFLOPS)  ");
+    LOG_INF("| CUDA flops (IQ1SxF32, GFLOPS)   ");
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_iq1s_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| CUDA flops (IQ4NLxF32, GFLOPS) ");  
+    LOG_INF("| CUDA flops (IQ4NLxF32, GFLOPS)  ");  
     for (int i = 0; i < n; ++i) {
         LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_iq4nl_f32);
     }
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output F32xF32)   ");
+    LOG_INF("| CUDA flops (IQ1MxF32, GFLOPS)   ");
+    for (int i = 0; i < n; ++i) {
+        LOG_INF("| %-10.1f   ", dev_info_set[i].gpu_props.cuda_flops_iq1m_f32);
+    }
+    LOG_INF("\n");
+
+    LOG_INF("| Model flops (output F32xF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_f32_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output F16xF32)   ");
+    LOG_INF("| Model flops (output F16xF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_f16_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output Q2KxF32)   ");
+    LOG_INF("| Model flops (output Q2KxF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_q2k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output Q4KxF32)   ");
+    LOG_INF("| Model flops (output Q4KxF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_q4k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output Q5KxF32)   ");
+    LOG_INF("| Model flops (output Q5KxF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_q5k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output Q6KxF32)   ");
+    LOG_INF("| Model flops (output Q6KxF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_q6k_f32);
     LOG_INF("\n");
+
+    LOG_INF("| Model flops (output IQ2XXSxF32) ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_iq2xxs_f32);
+    LOG_INF("\n");
     
-    LOG_INF("| Model flops (output Q50xF32)   ");
+    LOG_INF("| Model flops (output Q50xF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_q50_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output Q80xF32)   ");
+    LOG_INF("| Model flops (output Q80xF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_q80_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output IQ1SxF32)  ");
+    LOG_INF("| Model flops (output IQ1SxF32)   ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_iq1s_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (output IQ4NLxF32) ");
+    LOG_INF("| Model flops (output IQ4NLxF32)  ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_iq4nl_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer F32xF32)    ");
+    LOG_INF("| Model flops (output IQ1MxF32)   ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.output_iq1m_f32);
+    LOG_INF("\n");
+
+    LOG_INF("| Model flops (layer F32xF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_f32_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer F16xF32)    ");
+    LOG_INF("| Model flops (layer F16xF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_f16_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer Q2KxF32)    ");
+    LOG_INF("| Model flops (layer Q2KxF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_q2k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer Q4KxF32)    ");
+    LOG_INF("| Model flops (layer Q4KxF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_q4k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer Q5KxF32)    ");
+    LOG_INF("| Model flops (layer Q5KxF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_q5k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer Q6KxF32)    ");
+    LOG_INF("| Model flops (layer Q6KxF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_q6k_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer Q50xF32)    ");
+    LOG_INF("| Model flops (layer IQ2XXSxF32)  ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_iq2xxs_f32);
+    LOG_INF("\n");
+
+    LOG_INF("| Model flops (layer Q50xF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_q50_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer Q80xF32)    ");
+    LOG_INF("| Model flops (layer Q80xF32)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_q80_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer IQ1SxF32)   ");
+    LOG_INF("| Model flops (layer IQ1SxF32)    ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_iq1s_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model flops (layer IQ4NLxF32)  ");
+    LOG_INF("| Model flops (layer IQ4NLxF32)   ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_iq4nl_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input F32)       ");
+    LOG_INF("| Model flops (layer IQ1MxF32)    ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_flops.layer_iq1m_f32);
+    LOG_INF("\n");
+
+    LOG_INF("| Model params (input F32)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input F16)       ");
+    LOG_INF("| Model params (input F16)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_f16);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input Q2K)       ");
+    LOG_INF("| Model params (input Q2K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_q2k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input Q4K)       ");
+    LOG_INF("| Model params (input Q4K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_q4k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input Q5K)       ");
+    LOG_INF("| Model params (input Q5K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_q5k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input Q6K)       ");
+    LOG_INF("| Model params (input Q6K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_q6k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input Q50)       ");
+    LOG_INF("| Model params (input IQ2XXS)     ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_iq2xxs);
+    LOG_INF("\n");
+
+    LOG_INF("| Model params (input Q50)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_q50);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input Q80)       ");
+    LOG_INF("| Model params (input Q80)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_q80);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input IQ1S)      ");
+    LOG_INF("| Model params (input IQ1S)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_iq1s);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (input IQ4NL)     ");
+    LOG_INF("| Model params (input IQ4NL)      ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_iq4nl);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer F32)       ");
+    LOG_INF("| Model params (input IQ1M)       ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.input_iq1m);
+    LOG_INF("\n");
+
+    LOG_INF("| Model params (layer F32)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer F16)       ");
+    LOG_INF("| Model params (layer F16)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_f16);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer Q2K)       ");
+    LOG_INF("| Model params (layer Q2K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_q2k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer Q4K)       ");
+    LOG_INF("| Model params (layer Q4K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_q4k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer Q5K)       ");
+    LOG_INF("| Model params (layer Q5K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_q5k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer Q6K)       ");
+    LOG_INF("| Model params (layer Q6K)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_q6k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer Q50)       ");
+    LOG_INF("| Model params (layer IQ2XXS)     ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_iq2xxs);
+    LOG_INF("\n");
+
+    LOG_INF("| Model params (layer Q50)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_q50);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer Q80)       ");
+    LOG_INF("| Model params (layer Q80)        ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_q80);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer IQ1S)      ");
+    LOG_INF("| Model params (layer IQ1S)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_iq1s);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (layer IQ4NL)     ");
+    LOG_INF("| Model params (layer IQ4NL)      ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_iq4nl);
-    LOG_INF("\n");                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           
+    LOG_INF("\n");        
+    
+    LOG_INF("| Model params (layer IQ1M)       ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.layer_iq1m);
+    LOG_INF("\n");
 
-    LOG_INF("| Model params (output F32)      ");
+    LOG_INF("| Model params (output F32)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_f32);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output F16)      ");
+    LOG_INF("| Model params (output F16)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_f16);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output Q2K)      ");
+    LOG_INF("| Model params (output Q2K)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_q2k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output Q4K)      ");
+    LOG_INF("| Model params (output Q4K)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_q4k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output Q5K)      ");
+    LOG_INF("| Model params (output Q5K)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_q5k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output Q6K)      ");
+    LOG_INF("| Model params (output Q6K)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_q6k);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output Q50)      ");
+    LOG_INF("| Model params (output IQ2XXS)    ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_iq2xxs);
+    LOG_INF("\n");
+
+    LOG_INF("| Model params (output Q50)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_q50);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output Q80)      ");
+    LOG_INF("| Model params (output Q80)       ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_q80);
     LOG_INF("\n");
 
-    LOG_INF("| Model params (output IQ1S)     ");
+    LOG_INF("| Model params (output IQ1S)      ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_iq1s);
     LOG_INF("\n");    
 
-    LOG_INF("| Model params (output IQ4NL)    ");
+    LOG_INF("| Model params (output IQ4NL)     ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_iq4nl);
     LOG_INF("\n");  
 
-    LOG_INF("| Model bytes  (input)           ");
+    LOG_INF("| Model params (output IQ1M)      ");
+    LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_params.output_iq1m);
+    LOG_INF("\n");
+
+    LOG_INF("| Model bytes  (input)            ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_bytes.nb_input);
     LOG_INF("\n");
 
-    LOG_INF("| Model bytes  (layer)           ");
+    LOG_INF("| Model bytes  (layer)            ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_bytes.nb_layer);
     LOG_INF("\n");
 
-    LOG_INF("| Model bytes  (output)          ");
+    LOG_INF("| Model bytes  (output)           ");
     LOG_INF("| %-10" PRId64 "   ", dev_info_set[0].model_bytes.nb_output);
     LOG_INF("\n");
 
@@ -2287,26 +2373,32 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
                       + gpu_description_len
                       + sizeof(struct disk_props)
                       + sizeof(uint32_t)    // cpu_props.cores
-                      + sizeof(float) * 10  // - cpu_props.flops_f32_f32,   cpu_props.flops_f16_f32,
+                      + sizeof(float) * 12  // - cpu_props.flops_f32_f32,   cpu_props.flops_f16_f32,
                                             // - cpu_props.flops_q2k_f32,   cpu_props.flops_q4k_f32, cpu_props.flops_q5k_f32, cpu_props.flops_q6k_f32
+                                            // - cpu_props.flops_iq2xxs_f32
                                             // - cpu_props.flops_q50_f32,   cpu_props.flops_q80_f32
                                             // - cpu_props.flops_iq1s_f32,  cpu_props.flops_iq4nl_f32
+                                            // - cpu_props.flops_iq1m_f32
                       + sizeof(struct memory_info)
                       + sizeof(struct gpu_support)
-                      + sizeof(float) * 26;     // GPU attributes
+                      + sizeof(float) * 30;     // GPU attributes
                                                 // memory:
                                                 // - memory_free,           memory_total
                                                 // - metal_read_vram_bw,    cuda_read_vram_bw
                                                 // Metal floating-point performance:
                                                 // - metal_flops_f32_f32,   metal_flops_f16_f32
                                                 // - metal_flops_q2k_f32,   metal_flops_q4k_f32, metal_flops_q5k_f32, metal_flops_q6k_f32
+                                                // - metal_flops_iq2xxs_f32
                                                 // - metal_flops_q50_f32,   metal_flops_q80_f32
                                                 // - metal_flops_iq1s_f32,  metal_flops_iq4nl_f32
+                                                // - metal_flops_iq1m_f32
                                                 // CUDA floating-point performance:
                                                 // - cuda_flops_f32_f32,    cuda_flops_f16_f32
                                                 // - cuda_flops_q2k_f32,    cuda_flops_q4k_f32, cuda_flops_q5k_f32, cuda_flops_q6k_f32
+                                                // - cuda_flops_iq2xxs_f32
                                                 // - cuda_flops_q50_f32,    cuda_flops_q80_f32
                                                 // - cuda_flops_iq1s_f32,   cuda_flops_iq4nl_f32
+                                                // - cuda_flops_iq1m_f32
                                                 // delay:
                                                 // - metal_mem_cpy_delay,   cuda_mem_cpy_delay
 
@@ -2379,6 +2471,9 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
     memcpy(ptr, &dev_info->cpu_props.flops_q6k_f32, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(ptr, &dev_info->cpu_props.flops_iq2xxs_f32, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(ptr, &dev_info->cpu_props.flops_q50_f32, sizeof(float));
     ptr += sizeof(float);
 
@@ -2391,6 +2486,9 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
     memcpy(ptr, &dev_info->cpu_props.flops_iq4nl_f32, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(ptr, &dev_info->cpu_props.flops_iq1m_f32, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(ptr, &dev_info->memory, sizeof(struct memory_info));
     ptr += sizeof(struct memory_info);
 
@@ -2424,6 +2522,9 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
     memcpy(ptr, &dev_info->gpu_props.metal_flops_q6k_f32, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(ptr, &dev_info->gpu_props.metal_flops_iq2xxs_f32, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(ptr, &dev_info->gpu_props.metal_flops_q50_f32, sizeof(float));
     ptr += sizeof(float);
 
@@ -2436,6 +2537,9 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
     memcpy(ptr, &dev_info->gpu_props.metal_flops_iq4nl_f32, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(ptr, &dev_info->gpu_props.metal_flops_iq1m_f32, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(ptr, &dev_info->gpu_props.metal_mem_cpy_delay, sizeof(float));
     ptr += sizeof(float);
 
@@ -2460,6 +2564,9 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
     memcpy(ptr, &dev_info->gpu_props.cuda_flops_q6k_f32, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(ptr, &dev_info->gpu_props.cuda_flops_iq2xxs_f32, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(ptr, &dev_info->gpu_props.cuda_flops_q50_f32, sizeof(float));
     ptr += sizeof(float);
 
@@ -2472,6 +2579,9 @@ size_t serialize(const struct device_info * dev_info, char ** buffer) {
     memcpy(ptr, &dev_info->gpu_props.cuda_flops_iq4nl_f32, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(ptr, &dev_info->gpu_props.cuda_flops_iq1m_f32, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(ptr, &dev_info->gpu_props.cuda_mem_cpy_delay, sizeof(float));
 
     // no need to synchronize model flops and model params
@@ -2558,6 +2668,9 @@ void deserialize(const char * buffer, struct device_info * dev_info) {
     memcpy(&dev_info->cpu_props.flops_q6k_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(&dev_info->cpu_props.flops_iq2xxs_f32, ptr, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(&dev_info->cpu_props.flops_q50_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
@@ -2570,6 +2683,9 @@ void deserialize(const char * buffer, struct device_info * dev_info) {
     memcpy(&dev_info->cpu_props.flops_iq4nl_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(&dev_info->cpu_props.flops_iq1m_f32, ptr, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(&dev_info->memory, ptr, sizeof(struct memory_info));
     ptr += sizeof(struct memory_info);
 
@@ -2603,6 +2719,9 @@ void deserialize(const char * buffer, struct device_info * dev_info) {
     memcpy(&dev_info->gpu_props.metal_flops_q6k_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(&dev_info->gpu_props.metal_flops_iq2xxs_f32, ptr, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(&dev_info->gpu_props.metal_flops_q50_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
@@ -2615,6 +2734,9 @@ void deserialize(const char * buffer, struct device_info * dev_info) {
     memcpy(&dev_info->gpu_props.metal_flops_iq4nl_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(&dev_info->gpu_props.metal_flops_iq1m_f32, ptr, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(&dev_info->gpu_props.metal_mem_cpy_delay, ptr, sizeof(float));
     ptr += sizeof(float);
 
@@ -2639,6 +2761,9 @@ void deserialize(const char * buffer, struct device_info * dev_info) {
     memcpy(&dev_info->gpu_props.cuda_flops_q6k_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(&dev_info->gpu_props.cuda_flops_iq2xxs_f32, ptr, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(&dev_info->gpu_props.cuda_flops_q50_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
@@ -2651,6 +2776,9 @@ void deserialize(const char * buffer, struct device_info * dev_info) {
     memcpy(&dev_info->gpu_props.cuda_flops_iq4nl_f32, ptr, sizeof(float));
     ptr += sizeof(float);
 
+    memcpy(&dev_info->gpu_props.cuda_flops_iq1m_f32, ptr, sizeof(float));
+    ptr += sizeof(float);
+
     memcpy(&dev_info->gpu_props.cuda_mem_cpy_delay, ptr, sizeof(float));
 
     // no need to synchronize model flops and model params
diff --git a/common/profiler.h b/common/profiler.h
index 0681a711..b8fff0d1 100644
--- a/common/profiler.h
+++ b/common/profiler.h
@@ -15,16 +15,18 @@ struct cpu_props {
     const char * name;
     const char * description;
     uint32_t     cores;
-    float        flops_f32_f32; // in GFLOPS
-    float        flops_f16_f32; // in GFLOPS
-    float        flops_q2k_f32; // in GFLOPS
-    float        flops_q4k_f32; // in GFLOPS
-    float        flops_q5k_f32; // in GFLOPS
-    float        flops_q6k_f32; // in GFLOPS
-    float        flops_q50_f32; // in GFLOPS    
-    float        flops_q80_f32; // in GFLOPS
-    float        flops_iq1s_f32; // in GFLOPS
-    float        flops_iq4nl_f32; // in GFLOPS
+    float        flops_f32_f32;     // in GFLOPS
+    float        flops_f16_f32;     // in GFLOPS
+    float        flops_q2k_f32;     // in GFLOPS
+    float        flops_q4k_f32;     // in GFLOPS
+    float        flops_q5k_f32;     // in GFLOPS
+    float        flops_q6k_f32;     // in GFLOPS
+    float        flops_iq2xxs_f32;  // in GFLOPS
+    float        flops_q50_f32;     // in GFLOPS    
+    float        flops_q80_f32;     // in GFLOPS
+    float        flops_iq1s_f32;    // in GFLOPS
+    float        flops_iq4nl_f32;   // in GFLOPS
+    float        flops_iq1m_f32;    // in GFLOPS
 
     cpu_props()
         : name            (""), 
@@ -36,10 +38,12 @@ struct cpu_props {
           flops_q4k_f32   (0.0f),
           flops_q5k_f32   (0.0f),
           flops_q6k_f32   (0.0f),
+          flops_iq2xxs_f32(0.0f),
           flops_q50_f32   (0.0f),
           flops_q80_f32   (0.0f),
           flops_iq1s_f32  (0.0f), 
-          flops_iq4nl_f32 (0.0f)
+          flops_iq4nl_f32 (0.0f),
+          flops_iq1m_f32  (0.0f)
     {}
 };
 
@@ -84,32 +88,36 @@ struct gpu_support {
 struct gpu_props {
     const char * name;
     const char * description;
-    float        memory_free;         // in GiB
-    float        memory_total;        // in GiB
-    float        metal_read_vram_bw;  // in GB/s
-    float        metal_flops_f32_f32; // in GFLOPS
-    float        metal_flops_f16_f32; // in GFLOPS
-    float        metal_flops_q2k_f32; // in GFLOPS
-    float        metal_flops_q4k_f32; // in GFLOPS
-    float        metal_flops_q5k_f32; // in GFLOPS
-    float        metal_flops_q6k_f32; // in GFLOPS
-    float        metal_flops_q50_f32; // in GFLOPS
-    float        metal_flops_q80_f32; // in GFLOPS
-    float        metal_flops_iq1s_f32; // in GFLOPS
-    float        metal_flops_iq4nl_f32; // in GFLOPS
-    float        metal_mem_cpy_delay; // in ms
-    float        cuda_read_vram_bw;   // in GB/s
-    float        cuda_flops_f32_f32;  // in GFLOPS
-    float        cuda_flops_f16_f32;  // in GFLOPS
-    float        cuda_flops_q2k_f32;  // in GFLOPS
-    float        cuda_flops_q4k_f32;  // in GFLOPS
-    float        cuda_flops_q5k_f32;  // in GFLOPS
-    float        cuda_flops_q6k_f32;  // in GFLOPS
-    float        cuda_flops_q50_f32;  // in GFLOPS
-    float        cuda_flops_q80_f32;  // in GFLOPS
-    float        cuda_flops_iq1s_f32; // in GFLOPS
-    float        cuda_flops_iq4nl_f32; // in GFLOPS
-    float        cuda_mem_cpy_delay;  // in ms
+    float        memory_free;               // in GiB
+    float        memory_total;              // in GiB
+    float        metal_read_vram_bw;        // in GB/s
+    float        metal_flops_f32_f32;       // in GFLOPS
+    float        metal_flops_f16_f32;       // in GFLOPS
+    float        metal_flops_q2k_f32;       // in GFLOPS
+    float        metal_flops_q4k_f32;     // in GFLOPS
+    float        metal_flops_q5k_f32;     // in GFLOPS
+    float        metal_flops_q6k_f32;     // in GFLOPS
+    float        metal_flops_iq2xxs_f32;  // in GFLOPS
+    float        metal_flops_q50_f32;     // in GFLOPS
+    float        metal_flops_q80_f32;     // in GFLOPS
+    float        metal_flops_iq1s_f32;    // in GFLOPS
+    float        metal_flops_iq4nl_f32;   // in GFLOPS
+    float        metal_flops_iq1m_f32;    // in GFLOPS
+    float        metal_mem_cpy_delay;     // in ms
+    float        cuda_read_vram_bw;       // in GB/s
+    float        cuda_flops_f32_f32;      // in GFLOPS
+    float        cuda_flops_f16_f32;      // in GFLOPS
+    float        cuda_flops_q2k_f32;      // in GFLOPS
+    float        cuda_flops_q4k_f32;      // in GFLOPS
+    float        cuda_flops_q5k_f32;      // in GFLOPS
+    float        cuda_flops_q6k_f32;      // in GFLOPS
+    float        cuda_flops_iq2xxs_f32;   // in GFLOPS
+    float        cuda_flops_q50_f32;      // in GFLOPS
+    float        cuda_flops_q80_f32;      // in GFLOPS
+    float        cuda_flops_iq1s_f32;     // in GFLOPS
+    float        cuda_flops_iq4nl_f32;    // in GFLOPS
+    float        cuda_flops_iq1m_f32;     // in GFLOPS
+    float        cuda_mem_cpy_delay;      // in ms
 
     gpu_props() : 
         name                    (""), 
@@ -123,10 +131,12 @@ struct gpu_props {
         metal_flops_q4k_f32     (0.0f),
         metal_flops_q5k_f32     (0.0f),
         metal_flops_q6k_f32     (0.0f),
+        metal_flops_iq2xxs_f32  (0.0f),
         metal_flops_q50_f32     (0.0f),
         metal_flops_q80_f32     (0.0f),
         metal_flops_iq1s_f32    (0.0f),
         metal_flops_iq4nl_f32   (0.0f),
+        metal_flops_iq1m_f32    (0.0f),
         metal_mem_cpy_delay     (0.0f),
         cuda_read_vram_bw       (0.0f),
         cuda_flops_f32_f32      (0.0f), 
@@ -135,10 +145,12 @@ struct gpu_props {
         cuda_flops_q4k_f32      (0.0f),
         cuda_flops_q5k_f32      (0.0f),
         cuda_flops_q6k_f32      (0.0f),
+        cuda_flops_iq2xxs_f32   (0.0f),
         cuda_flops_q50_f32      (0.0f),
         cuda_flops_q80_f32      (0.0f),
         cuda_flops_iq1s_f32     (0.0f),
         cuda_flops_iq4nl_f32    (0.0f),
+        cuda_flops_iq1m_f32     (0.0f),
         cuda_mem_cpy_delay      (0.0f) {}
 };
 
@@ -150,43 +162,52 @@ struct model_flops {
     int64_t output_q4k_f32;
     int64_t output_q5k_f32;
     int64_t output_q6k_f32;
+    int64_t output_iq2xxs_f32;
     int64_t output_q50_f32;
     int64_t output_q80_f32;
     int64_t output_iq1s_f32;
     int64_t output_iq4nl_f32;
+    int64_t output_iq1m_f32;
     int64_t layer_f32_f32;
     int64_t layer_f16_f32;
     int64_t layer_q2k_f32;
     int64_t layer_q4k_f32;
     int64_t layer_q5k_f32;
     int64_t layer_q6k_f32;
+    int64_t layer_iq2xxs_f32;
     int64_t layer_q50_f32;
     int64_t layer_q80_f32;
     int64_t layer_iq1s_f32;
     int64_t layer_iq4nl_f32;
+    int64_t layer_iq1m_f32;
 
     model_flops() : 
-        inp_embd_ms(0.0f),
-        output_f32_f32(0), 
-        output_f16_f32(0),
-        output_q2k_f32(0),
-        output_q4k_f32(0),
-        output_q5k_f32(0),
-        output_q6k_f32(0), 
-        output_q50_f32(0),
-        output_q80_f32(0),
-        output_iq1s_f32(0),
-        output_iq4nl_f32(0),
-        layer_f32_f32 (0),
-        layer_f16_f32 (0),
-        layer_q2k_f32 (0),
-        layer_q4k_f32 (0),
-        layer_q5k_f32 (0),
-        layer_q6k_f32 (0),
-        layer_q50_f32 (0),
-        layer_q80_f32 (0),
-        layer_iq1s_f32 (0),
-        layer_iq4nl_f32 (0) {}
+        inp_embd_ms        (0.0f),
+        output_f32_f32     (0), 
+        output_f16_f32     (0),
+        output_q2k_f32     (0),
+        output_q4k_f32     (0),
+        output_q5k_f32     (0),
+        output_q6k_f32     (0), 
+        output_iq2xxs_f32  (0),
+        output_q50_f32     (0),
+        output_q80_f32     (0),
+        output_iq1s_f32    (0),
+        output_iq4nl_f32   (0),
+        output_iq1m_f32    (0),
+        layer_f32_f32      (0),
+        layer_f16_f32      (0),
+        layer_q2k_f32      (0),
+        layer_q4k_f32      (0),
+        layer_q5k_f32      (0),
+        layer_q6k_f32      (0),
+        layer_iq2xxs_f32   (0),
+        layer_q50_f32      (0),
+        layer_q80_f32      (0),
+        layer_iq1s_f32     (0),
+        layer_iq4nl_f32    (0), 
+        layer_iq1m_f32     (0)
+        {}
 };
 
 struct model_params {
@@ -196,62 +217,75 @@ struct model_params {
     int64_t input_q4k;
     int64_t input_q5k;
     int64_t input_q6k;
+    int64_t input_iq2xxs;
     int64_t input_q50;
     int64_t input_q80;
     int64_t input_iq1s;
     int64_t input_iq4nl;
+    int64_t input_iq1m;
     int64_t output_f32;
     int64_t output_f16;
     int64_t output_q2k;
     int64_t output_q4k;
     int64_t output_q5k;
     int64_t output_q6k;
+    int64_t output_iq2xxs;
     int64_t output_q50;
     int64_t output_q80;
     int64_t output_iq1s;
     int64_t output_iq4nl;
+    int64_t output_iq1m;
     int64_t layer_f32;
     int64_t layer_f16;
     int64_t layer_q2k;
     int64_t layer_q4k;
     int64_t layer_q5k;
     int64_t layer_q6k;
+    int64_t layer_iq2xxs;
     int64_t layer_q50;
     int64_t layer_q80;
     int64_t layer_iq1s;
     int64_t layer_iq4nl;
+    int64_t layer_iq1m;
 
     model_params() :
-        input_f32 (0),
-        input_f16 (0),
-        input_q2k (0),
-        input_q4k (0),
-        input_q5k (0),
-        input_q6k (0),
-        input_q50 (0),
-        input_q80 (0),
-        input_iq1s(0),
-        input_iq4nl(0),
-        output_f32(0),
-        output_f16(0),
-        output_q2k(0),
-        output_q4k(0),
-        output_q5k(0),
-        output_q6k(0),
-        output_q50(0),
-        output_q80(0),
-        output_iq1s(0),
-        output_iq4nl(0),
-        layer_f32 (0),
-        layer_f16 (0),
-        layer_q2k (0),
-        layer_q4k (0),
-        layer_q5k (0),
-        layer_q6k (0),
-        layer_q50 (0),
-        layer_q80 (0),
-        layer_iq1s (0),
-        layer_iq4nl (0) {}
+        input_f32       (0),
+        input_f16       (0),
+        input_q2k       (0),
+        input_q4k       (0),
+        input_q5k       (0),
+        input_q6k       (0),
+        input_iq2xxs    (0),
+        input_q50       (0),
+        input_q80       (0),
+        input_iq1s      (0),
+        input_iq4nl     (0),
+        input_iq1m      (0),
+        output_f32      (0),
+        output_f16      (0),
+        output_q2k      (0),
+        output_q4k      (0),
+        output_q5k      (0),
+        output_q6k      (0),
+        output_iq2xxs   (0),
+        output_q50      (0),
+        output_q80      (0),
+        output_iq1s     (0),
+        output_iq4nl    (0),
+        output_iq1m     (0),
+        layer_f32       (0),
+        layer_f16       (0),
+        layer_q2k       (0),
+        layer_q4k       (0),
+        layer_q5k       (0),
+        layer_q6k       (0),
+        layer_iq2xxs    (0),
+        layer_q50       (0),
+        layer_q80       (0),
+        layer_iq1s      (0),
+        layer_iq4nl     (0), 
+        layer_iq1m      (0)
+        {}
 };
 
 struct model_bytes {
diff --git a/src/llama.cpp b/src/llama.cpp
index 2ac20007..95cbbaf9 100644
--- a/src/llama.cpp
+++ b/src/llama.cpp
@@ -3560,21 +3560,25 @@ static bool is_dtype_exist(struct model_params * n_params, enum ggml_type dtype)
         case GGML_TYPE_F16:    
             return true;
         case GGML_TYPE_Q2_K:
-            return n_params->layer_q2k > 0   || n_params->output_q2k   > 0;
+            return n_params->layer_q2k    > 0 || n_params->output_q2k    > 0;
         case GGML_TYPE_Q4_K:
-            return n_params->layer_q4k > 0   || n_params->output_q4k   > 0;
+            return n_params->layer_q4k    > 0 || n_params->output_q4k    > 0;
         case GGML_TYPE_Q5_K:
-            return n_params->layer_q5k > 0   || n_params->output_q5k   > 0;
+            return n_params->layer_q5k    > 0 || n_params->output_q5k    > 0;
         case GGML_TYPE_Q6_K:
-            return n_params->layer_q6k > 0   || n_params->output_q6k   > 0;
+            return n_params->layer_q6k    > 0 || n_params->output_q6k    > 0;
+        case GGML_TYPE_IQ2_XXS:
+            return n_params->layer_iq2xxs > 0 || n_params->output_iq2xxs > 0;
         case GGML_TYPE_Q5_0:
-            return n_params->layer_q50 > 0   || n_params->output_q50   > 0;
+            return n_params->layer_q50    > 0 || n_params->output_q50    > 0;
         case GGML_TYPE_Q8_0:
-            return n_params->layer_q80 > 0   || n_params->output_q80   > 0;
+            return n_params->layer_q80    > 0 || n_params->output_q80    > 0;
         case GGML_TYPE_IQ1_S:
-            return n_params->layer_iq1s  > 0 || n_params->output_iq1s  > 0;
+            return n_params->layer_iq1s   > 0 || n_params->output_iq1s   > 0;
         case GGML_TYPE_IQ4_NL:
-            return n_params->layer_iq4nl > 0 || n_params->output_iq4nl > 0;
+            return n_params->layer_iq4nl  > 0 || n_params->output_iq4nl  > 0;
+        case GGML_TYPE_IQ1_M:
+            return n_params->layer_iq1m   > 0 || n_params->output_iq1m   > 0;
         default:
             throw std::runtime_error("Unrecognized data type\n");
     }
@@ -3679,6 +3683,12 @@ void llama_profile_device(
         dev_info->gpu_props.cuda_flops_q6k_f32  = device_cuda_flops (model, GGML_TYPE_Q6_K, GGML_TYPE_F32);
     }
 
+    if (is_dtype_exist(n_params, GGML_TYPE_IQ2_XXS)) {
+        dev_info->cpu_props.flops_iq2xxs_f32    = device_cpu_flops  (model, GGML_TYPE_IQ2_XXS, GGML_TYPE_F32, n_threads);
+        dev_info->gpu_props.metal_flops_iq2xxs_f32= device_metal_flops(model, GGML_TYPE_IQ2_XXS, GGML_TYPE_F32);
+        dev_info->gpu_props.cuda_flops_iq2xxs_f32 = device_cuda_flops (model, GGML_TYPE_IQ2_XXS, GGML_TYPE_F32);
+    }
+
     if (is_dtype_exist(n_params, GGML_TYPE_Q5_0)) {
         dev_info->cpu_props.flops_q50_f32       = device_cpu_flops  (model, GGML_TYPE_Q5_0, GGML_TYPE_F32, n_threads);
         dev_info->gpu_props.metal_flops_q50_f32 = device_metal_flops(model, GGML_TYPE_Q5_0, GGML_TYPE_F32);
@@ -3703,6 +3713,12 @@ void llama_profile_device(
         dev_info->gpu_props.metal_flops_iq4nl_f32= device_metal_flops(model, GGML_TYPE_IQ4_NL, GGML_TYPE_F32);
         dev_info->gpu_props.cuda_flops_iq4nl_f32 = device_cuda_flops (model, GGML_TYPE_IQ4_NL, GGML_TYPE_F32);
     }
+
+    if (is_dtype_exist(n_params, GGML_TYPE_IQ1_M)) {
+        dev_info->cpu_props.flops_iq1m_f32      = device_cpu_flops  (model, GGML_TYPE_IQ1_M, GGML_TYPE_F32, n_threads);
+        dev_info->gpu_props.metal_flops_iq1m_f32= device_metal_flops(model, GGML_TYPE_IQ1_M, GGML_TYPE_F32);
+        dev_info->gpu_props.cuda_flops_iq1m_f32 = device_cuda_flops (model, GGML_TYPE_IQ1_M, GGML_TYPE_F32);
+    }
 }
 
 ggml_backend_buffer_type_t llama_dev_buffer_type(struct llama_model * model, int device) {
@@ -21049,34 +21065,40 @@ static void count_n_flops(struct model_flops * n_flops, enum ggml_type dtype, en
         case PROFILER_LAYER_OUTPUT:
             switch (dtype) {
                 case GGML_TYPE_F32:
-                    n_flops->output_f32_f32 += n;
+                    n_flops->output_f32_f32    += n;
                     break;
                 case GGML_TYPE_F16:
-                    n_flops->output_f16_f32 += n;
+                    n_flops->output_f16_f32    += n;
                     break;
                 case GGML_TYPE_Q2_K:
-                    n_flops->output_q2k_f32 += n;
+                    n_flops->output_q2k_f32    += n;
                     break;
                 case GGML_TYPE_Q4_K:
-                    n_flops->output_q4k_f32 += n;
+                    n_flops->output_q4k_f32    += n;
                     break;
                 case GGML_TYPE_Q5_K:
-                    n_flops->output_q5k_f32 += n;
+                    n_flops->output_q5k_f32    += n;
                     break;
                 case GGML_TYPE_Q6_K:
-                    n_flops->output_q6k_f32 += n;
+                    n_flops->output_q6k_f32    += n;
+                    break;
+                case GGML_TYPE_IQ2_XXS:
+                    n_flops->output_iq2xxs_f32 += n;
                     break;
                 case GGML_TYPE_Q5_0:
-                    n_flops->output_q50_f32 += n;
+                    n_flops->output_q50_f32    += n;
                     break;
                 case GGML_TYPE_Q8_0:
-                    n_flops->output_q80_f32 += n;
+                    n_flops->output_q80_f32    += n;
                     break;
                 case GGML_TYPE_IQ1_S:
-                    n_flops->output_iq1s_f32 += n;
+                    n_flops->output_iq1s_f32   += n;
                     break;
                 case GGML_TYPE_IQ4_NL:
-                    n_flops->output_iq4nl_f32 += n;
+                    n_flops->output_iq4nl_f32  += n;
+                    break;
+                case GGML_TYPE_IQ1_M:
+                    n_flops->output_iq1m_f32   += n;
                     break;
                 default:
                     throw std::runtime_error("Unrecognized weight type in PROFILER_LAYER_OUTPUT\n");
@@ -21086,34 +21108,40 @@ static void count_n_flops(struct model_flops * n_flops, enum ggml_type dtype, en
         case PROFILER_LAYER_BACKEND:
               switch (dtype) {
                 case GGML_TYPE_F32:
-                    n_flops->layer_f32_f32 += n;
+                    n_flops->layer_f32_f32    += n;
                     break;
                 case GGML_TYPE_F16:
-                    n_flops->layer_f16_f32 += n;
+                    n_flops->layer_f16_f32    += n;
                     break;
                 case GGML_TYPE_Q2_K:
-                    n_flops->layer_q2k_f32 += n;
+                    n_flops->layer_q2k_f32    += n;
                     break;
                 case GGML_TYPE_Q4_K:
-                    n_flops->layer_q4k_f32 += n;
+                    n_flops->layer_q4k_f32    += n;
                     break;
                 case GGML_TYPE_Q5_K:
-                    n_flops->layer_q5k_f32 += n;
+                    n_flops->layer_q5k_f32    += n;
                     break;
                 case GGML_TYPE_Q6_K:
-                    n_flops->layer_q6k_f32 += n;
+                    n_flops->layer_q6k_f32    += n;
+                    break;
+                case GGML_TYPE_IQ2_XXS:
+                    n_flops->layer_iq2xxs_f32 += n;
                     break;
                 case GGML_TYPE_Q5_0:
-                    n_flops->layer_q50_f32 += n;
+                    n_flops->layer_q50_f32    += n;
                     break;
                 case GGML_TYPE_Q8_0:
-                    n_flops->layer_q80_f32 += n;
+                    n_flops->layer_q80_f32    += n;
                     break;
                 case GGML_TYPE_IQ1_S:
-                    n_flops->layer_iq1s_f32 += n;
+                    n_flops->layer_iq1s_f32   += n;
                     break;
                 case GGML_TYPE_IQ4_NL:
-                    n_flops->layer_iq4nl_f32 += n;
+                    n_flops->layer_iq4nl_f32  += n;
+                    break;
+                case GGML_TYPE_IQ1_M:
+                    n_flops->layer_iq1m_f32   += n;
                     break;
                 default:
                     throw std::runtime_error("Unrecognized weight type in PROFILER_LAYER_BACKEND\n");
@@ -21131,34 +21159,40 @@ static void count_n_params(struct model_params * n_params, enum ggml_type dtype,
         case PROFILER_LAYER_INPUT:
             switch (dtype) {
                 case GGML_TYPE_F32:
-                    n_params->input_f32 += n_i64t;
+                    n_params->input_f32    += n_i64t;
                     break;
                 case GGML_TYPE_F16:
-                    n_params->input_f16 += n_i64t;
+                    n_params->input_f16    += n_i64t;
                     break;
                 case GGML_TYPE_Q2_K:
-                    n_params->input_q2k += n_i64t;
+                    n_params->input_q2k    += n_i64t;
                     break;
                 case GGML_TYPE_Q4_K:
-                    n_params->input_q4k += n_i64t;
+                    n_params->input_q4k    += n_i64t;
                     break;
                 case GGML_TYPE_Q5_K:
-                    n_params->input_q5k += n_i64t;
+                    n_params->input_q5k    += n_i64t;
                     break;
                 case GGML_TYPE_Q6_K:
-                    n_params->input_q6k += n_i64t;
+                    n_params->input_q6k    += n_i64t;
+                    break;
+                case GGML_TYPE_IQ2_XXS:
+                    n_params->input_iq2xxs += n_i64t;
                     break;
                 case GGML_TYPE_Q5_0:
-                    n_params->input_q50 += n_i64t;
+                    n_params->input_q50    += n_i64t;
                     break;
                 case GGML_TYPE_Q8_0:
-                    n_params->input_q80 += n_i64t;
+                    n_params->input_q80    += n_i64t;
                     break;
                 case GGML_TYPE_IQ1_S:
-                    n_params->input_iq1s += n_i64t;
+                    n_params->input_iq1s   += n_i64t;
                     break;
                 case GGML_TYPE_IQ4_NL:
-                    n_params->input_iq4nl += n_i64t;
+                    n_params->input_iq4nl  += n_i64t;
+                    break;
+                case GGML_TYPE_IQ1_M:
+                    n_params->input_iq1m   += n_i64t;
                     break;
                 default:
                     throw std::runtime_error("Unrecognized weight type in PROFILER_LAYER_OUTPUT\n");
@@ -21185,6 +21219,9 @@ static void count_n_params(struct model_params * n_params, enum ggml_type dtype,
                 case GGML_TYPE_Q6_K:
                     n_params->output_q6k    += n_i64t;
                     break;
+                case GGML_TYPE_IQ2_XXS:
+                    n_params->output_iq2xxs += n_i64t;
+                    break;
                 case GGML_TYPE_Q5_0:
                     n_params->output_q50    += n_i64t;
                     break;
@@ -21197,6 +21234,9 @@ static void count_n_params(struct model_params * n_params, enum ggml_type dtype,
                 case GGML_TYPE_IQ4_NL:
                     n_params->output_iq4nl  += n_i64t;
                     break;
+                case GGML_TYPE_IQ1_M:
+                    n_params->output_iq1m   += n_i64t;
+                    break;
                 default:
                     throw std::runtime_error("Unrecognized weight type in PROFILER_LAYER_OUTPUT\n");
             }
@@ -21222,6 +21262,9 @@ static void count_n_params(struct model_params * n_params, enum ggml_type dtype,
                 case GGML_TYPE_Q6_K:
                     n_params->layer_q6k     += n_i64t;
                     break;
+                case GGML_TYPE_IQ2_XXS:
+                    n_params->layer_iq2xxs  += n_i64t;
+                    break;
                 case GGML_TYPE_Q5_0:
                     n_params->layer_q50     += n_i64t;
                     break;
@@ -21234,6 +21277,9 @@ static void count_n_params(struct model_params * n_params, enum ggml_type dtype,
                 case GGML_TYPE_IQ4_NL:
                     n_params->layer_iq4nl   += n_i64t;
                     break;
+                case GGML_TYPE_IQ1_M:
+                    n_params->layer_iq1m    += n_i64t;
+                    break;
                 default:
                     throw std::runtime_error("Unrecognized weight type in PROFILER_LAYER_BACKEND\n");
             }
@@ -21522,27 +21568,31 @@ void llama_model_n_flops(
     }
 
     // use average values instead of total values
-    n_flops->layer_f32_f32   = static_cast<int64_t>((double)n_flops->layer_f32_f32  / (double)n_layer);
-    n_flops->layer_f16_f32   = static_cast<int64_t>((double)n_flops->layer_f16_f32  / (double)n_layer);
-    n_flops->layer_q2k_f32   = static_cast<int64_t>((double)n_flops->layer_q2k_f32  / (double)n_layer);
-    n_flops->layer_q4k_f32   = static_cast<int64_t>((double)n_flops->layer_q4k_f32  / (double)n_layer);
-    n_flops->layer_q5k_f32   = static_cast<int64_t>((double)n_flops->layer_q5k_f32  / (double)n_layer);
-    n_flops->layer_q6k_f32   = static_cast<int64_t>((double)n_flops->layer_q6k_f32  / (double)n_layer);
-    n_flops->layer_q50_f32   = static_cast<int64_t>((double)n_flops->layer_q50_f32  / (double)n_layer);
-    n_flops->layer_q80_f32   = static_cast<int64_t>((double)n_flops->layer_q80_f32  / (double)n_layer);
-    n_flops->layer_iq1s_f32  = static_cast<int64_t>((double)n_flops->layer_iq1s_f32 / (double)n_layer);
-    n_flops->layer_iq4nl_f32 = static_cast<int64_t>((double)n_flops->layer_iq4nl_f32 / (double)n_layer);
+    n_flops->layer_f32_f32    = static_cast<int64_t>((double)n_flops->layer_f32_f32    / (double)n_layer);
+    n_flops->layer_f16_f32    = static_cast<int64_t>((double)n_flops->layer_f16_f32    / (double)n_layer);
+    n_flops->layer_q2k_f32    = static_cast<int64_t>((double)n_flops->layer_q2k_f32    / (double)n_layer);
+    n_flops->layer_q4k_f32    = static_cast<int64_t>((double)n_flops->layer_q4k_f32    / (double)n_layer);
+    n_flops->layer_q5k_f32    = static_cast<int64_t>((double)n_flops->layer_q5k_f32    / (double)n_layer);
+    n_flops->layer_q6k_f32    = static_cast<int64_t>((double)n_flops->layer_q6k_f32    / (double)n_layer);
+    n_flops->layer_iq2xxs_f32 = static_cast<int64_t>((double)n_flops->layer_iq2xxs_f32 / (double)n_layer);
+    n_flops->layer_q50_f32    = static_cast<int64_t>((double)n_flops->layer_q50_f32    / (double)n_layer);
+    n_flops->layer_q80_f32    = static_cast<int64_t>((double)n_flops->layer_q80_f32    / (double)n_layer);
+    n_flops->layer_iq1s_f32   = static_cast<int64_t>((double)n_flops->layer_iq1s_f32   / (double)n_layer);
+    n_flops->layer_iq4nl_f32  = static_cast<int64_t>((double)n_flops->layer_iq4nl_f32  / (double)n_layer);
+    n_flops->layer_iq1m_f32   = static_cast<int64_t>((double)n_flops->layer_iq1m_f32   / (double)n_layer);
     
     n_params->layer_f32      = static_cast<int64_t>((double)n_params->layer_f32     / (double)n_layer);
     n_params->layer_f16      = static_cast<int64_t>((double)n_params->layer_f16     / (double)n_layer);
     n_params->layer_q2k      = static_cast<int64_t>((double)n_params->layer_q2k     / (double)n_layer);
     n_params->layer_q4k      = static_cast<int64_t>((double)n_params->layer_q4k     / (double)n_layer);
-    n_params->layer_q50      = static_cast<int64_t>((double)n_params->layer_q50     / (double)n_layer);
     n_params->layer_q5k      = static_cast<int64_t>((double)n_params->layer_q5k     / (double)n_layer);
     n_params->layer_q6k      = static_cast<int64_t>((double)n_params->layer_q6k     / (double)n_layer);
+    n_params->layer_iq2xxs   = static_cast<int64_t>((double)n_params->layer_iq2xxs  / (double)n_layer);
+    n_params->layer_q50      = static_cast<int64_t>((double)n_params->layer_q50     / (double)n_layer);
     n_params->layer_q80      = static_cast<int64_t>((double)n_params->layer_q80     / (double)n_layer);
     n_params->layer_iq1s     = static_cast<int64_t>((double)n_params->layer_iq1s    / (double)n_layer);
     n_params->layer_iq4nl    = static_cast<int64_t>((double)n_params->layer_iq4nl   / (double)n_layer);
+    n_params->layer_iq1m     = static_cast<int64_t>((double)n_params->layer_iq1m    / (double)n_layer);
     
     n_bytes->nb_layer        = static_cast<int64_t>((double)n_bytes->nb_layer       / (double)n_layer);