support smt and glm4

2026-05-01 05:09:47 +00:00 · 2025-07-24 09:39:19 +00:00 · 2025-07-24 09:39:19 +00:00 · 613f0b7c37
commit 613f0b7c37
parent b66d96db97
8 changed files with 115 additions and 28 deletions
--- a/ktransformers/optimize/optimize_rules/Smallthinker-serve.yaml
+++ b/ktransformers/optimize/optimize_rules/Smallthinker-serve.yaml
@ -49,7 +49,7 @@
 - match:
    name: "^model\\.layers\\..*\\.block_sparse_moe\\.experts$"
  replace:
-    class: ktransformers.operators.experts.KTransformersExpertsV2     # custom MoE Kernel with expert paralleism
+    class: ktransformers.operators.experts.KSmallthinkerExperts     # custom MoE Kernel with expert paralleism
    kwargs:
      prefill_device: "cuda"
      prefill_op: None