fix-hopper-flashinfer

2025-09-09 13:55:27 +00:00 · 2025-04-29 11:06:34 +08:00 · 2025-04-29 11:06:34 +08:00 · b0318fc01c
commit b0318fc01c
parent 38333cf129
3 changed files with 6 additions and 3 deletions
--- a/ktransformers/models/custom_modeling_deepseek_v2.py
+++ b/ktransformers/models/custom_modeling_deepseek_v2.py
@ -50,7 +50,8 @@ class KDeepseekV2ForCausalLM(DeepseekV2PreTrainedModel):
        self.wrapper = flashinfer.mla.BatchMLAPagedAttentionWrapper(
            self.workspace_buffer, use_cuda_graph=use_cuda_graph,
            qo_indptr=self.qo_indptr_buf,kv_indptr=self.paged_kv_indptr_buf,
-            kv_indices=self.paged_kv_indices_buf,kv_len_arr=self.paged_kv_len_buf
+            kv_indices=self.paged_kv_indices_buf,kv_len_arr=self.paged_kv_len_buf,
+            backend = "fa2",
        )

    def batch_embeddings(self, batch: ForwardBatchInput, device="cuda:0"):