modeling_deepseek_v3: fix GenerationMixin warning

Fix GenerationMixin warning introduced by upgrading transformers to 4.51.3.
2025-09-06 04:30:03 +00:00 · 2025-05-01 07:48:15 +08:00 · 2025-05-01 07:48:15 +08:00 · def1ec7683
commit def1ec7683
parent 7530491f5b
1 changed files with 2 additions and 1 deletions
--- a/ktransformers/models/modeling_deepseek_v3.py
+++ b/ktransformers/models/modeling_deepseek_v3.py
@ -30,6 +30,7 @@ from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss

 from transformers.activations import ACT2FN
 from transformers.cache_utils import Cache, DynamicCache, StaticCache
+from transformers.generation import GenerationMixin
 from transformers.modeling_attn_mask_utils import (
    AttentionMaskConverter,
    _prepare_4d_attention_mask,
@ -1598,7 +1599,7 @@ class DeepseekV3Model(DeepseekV3PreTrainedModel):

        return causal_mask

-class DeepseekV3ForCausalLM(DeepseekV3PreTrainedModel):
+class DeepseekV3ForCausalLM(DeepseekV3PreTrainedModel, GenerationMixin):
    _tied_weights_keys = ["lm_head.weight"]

    def __init__(self, config):