support smt and qlm4

2025-09-10 15:29:39 +00:00 · 2025-07-25 12:48:51 +00:00 · 2025-07-25 12:48:51 +00:00 · 48bc6185b5
commit 48bc6185b5
parent 712ad1fa3c
9 changed files with 65 additions and 74 deletions
--- a/ktransformers/optimize/optimize_rules/Glm4Moe-serve.yaml
+++ b/ktransformers/optimize/optimize_rules/Glm4Moe-serve.yaml
@ -60,7 +60,7 @@
 - match:
    name: "^model\\.layers\\..*\\.self_attn$"
  replace:
-    class: ktransformers.operators.balance_serve_attention.KSmallthinkerAttention # optimized MLA implementation
+    class: ktransformers.operators.balance_serve_attention.KGlm4MoeAttention # optimized MLA implementation
    kwargs:
      generate_device: "cuda"
      prefill_device: "cuda"