GLM4 batch clamp

2025-09-09 16:44:35 +00:00 · 2025-04-26 09:42:17 +08:00 · 2025-04-26 09:42:17 +08:00 · 4decd6bea1
commit 4decd6bea1
parent 3f545eadbe
3 changed files with 9 additions and 0 deletions
--- a/gpttype_adapter.cpp
+++ b/gpttype_adapter.cpp
@ -1907,6 +1907,10 @@ ModelLoadResult gpttype_load_model(const load_model_inputs inputs, FileFormat in
        printf("Warning: Only GGUF models can use max context above 16k. Max context lowered to 16k.\n");
        clamped_max_context_length = 16384;
    }
+    if (isGguf && file_format_meta.model_architecture == GGUFArch::ARCH_GLM4 && kcpp_data->n_batch > 16) {
+        printf("GLM-4 is broken on larger batch sizes. Clamping batch size to 16.\n");
+        kcpp_data->n_batch = kcpp_data->n_ubatch = 16;
+    }

    kcpp_data->n_ctx = clamped_max_context_length;
    max_context_limit_at_load = clamped_max_context_length;