[fix](Qwen3 series): fix gibberish output by correcting RoPE write-back (#31 ) (#1959 )

[docs]: refresh KT install commands (#1958 )
[build]: flatten ktransformers package shim (#1955 )
2026-04-28 03:39:48 +00:00 · 2026-04-27 22:04:29 +08:00 · 2026-04-27 00:45:43 +08:00 · 2026-04-25 22:08:52 +08:00 · 2026-04-25 21:49:21 +08:00 · 2026-04-25 21:05:18 +08:00
474 changed files with 28088 additions and 691 deletions
--- a/.github/workflows/release-pypi.yml
+++ b/.github/workflows/release-pypi.yml
@ -107,6 +107,7 @@ jobs:
        working-directory: kt-kernel
        env:
          CPUINFER_BUILD_ALL_VARIANTS: '1'
+          CPUINFER_ENABLE_CPPTRACE: '0'
          CPUINFER_USE_CUDA: '1'
          CPUINFER_CUDA_ARCHS: '80;86;89;90'
          CPUINFER_CUDA_STATIC_RUNTIME: '1'
--- a/.github/workflows/release-sglang-kt.yml
+++ b/.github/workflows/release-sglang-kt.yml
@ -24,7 +24,7 @@ permissions:
 jobs:
  build-sglang-kt:
    name: Build sglang-kt wheel
-    runs-on: [self-hosted, linux, x64]
+    runs-on: ubuntu-latest

    steps:
      - name: Checkout repository
@ -70,7 +70,7 @@ jobs:
  publish-pypi:
    name: Publish sglang-kt to PyPI
    needs: [build-sglang-kt]
-    runs-on: [self-hosted, linux, x64]
+    runs-on: ubuntu-latest
    if: github.repository == 'kvcache-ai/ktransformers' && github.ref == 'refs/heads/main'
    environment: prod
    permissions:
--- a/README.md
+++ b/README.md
@ -8,7 +8,7 @@

 </p>
  <h3>A Flexible Framework for Experiencing Cutting-edge LLM Inference/Fine-tune Optimizations</h3>
-  <strong><a href="#-overview">🎯 Overview</a> | <a href="#-kt-kernel---high-performance-inference-kernels">🚀 kt-kernel</a> | <a href="#-kt-sft---fine-tuning-framework">🎓 kt-sft</a> | <a href="#-citation">🔥 Citation</a> | <a href="https://github.com/kvcache-ai/ktransformers/issues/1582">🚀 Roadmap(2025Q4)</a>  </strong>
+  <strong><a href="#-overview">🎯 Overview</a> | <a href="#-kt-kernel---high-performance-inference-kernels">🚀 kt-kernel</a> | <a href="#-kt-sft---fine-tuning-framework">🎓 kt-sft</a> | <a href="#-citation">🔥 Citation</a> | <a href="https://github.com/kvcache-ai/ktransformers/issues/1921">🚀 Roadmap(2026Q2)</a>  </strong>
 </div>

 ## 🎯 Overview
@ -16,7 +16,8 @@
 KTransformers is a research project focused on efficient inference and fine-tuning of large language models through CPU-GPU heterogeneous computing. The project has evolved into **two core modules**: [kt-kernel](https://github.com/kvcache-ai/ktransformers/tree/main/kt-kernel/) and [kt-sft](https://github.com/kvcache-ai/ktransformers/tree/main/kt-sft).

 ## 🔥 Updates
-
+* **May 6, 2026**: KTransformers at [GOSIM Paris 2026](https://paris2026.gosim.org/zh/schedule/) — "Agentic AI on Edge" track. We'll present KT's inference performance on consumer hardware.
+* **Mar 26, 2026**: Support AVX2-only CPU backend for KT-Kernel inference. ([Tutorial](./doc/en/kt-kernel/AVX2-Tutorial.md))
 * **Feb 13, 2026**: MiniMax-M2.5 Day0 Support! ([Tutorial](./doc/en/MiniMax-M2.5.md))
 * **Feb 12, 2026**: GLM-5 Day0 Support! ([Tutorial](./doc/en/kt-kernel/GLM-5-Tutorial.md))
 * **Jan 27, 2026**: Kimi-K2.5 Day0 Support! ([Tutorial](./doc/en/Kimi-K2.5.md)) ([SFT Tutorial](./doc/en/SFT_Installation_Guide_KimiK2.5.md))
@ -25,7 +26,7 @@ KTransformers is a research project focused on efficient inference and fine-tuni
 * **Dec 22, 2025**: Support RL-DPO fine-tuning with LLaMA-Factory. ([Tutorial](./doc/en/SFT/DPO_tutorial.md))
 * **Dec 5, 2025**: Support Native Kimi-K2-Thinking inference ([Tutorial](./doc/en/kt-kernel/Kimi-K2-Thinking-Native.md))
 * **Nov 6, 2025**: Support Kimi-K2-Thinking inference ([Tutorial](./doc/en/Kimi-K2-Thinking.md)) and fine-tune ([Tutorial](./doc/en/SFT_Installation_Guide_KimiK2.md))
-* **Nov 4, 2025**: KTransformers Fine-Tuning × LLaMA-Factory Integration. ([Tutorial](./doc/en/KTransformers-Fine-Tuning_User-Guide.md))
+* **Nov 4, 2025**: KTransformers Fine-Tuning × LLaMA-Factory Integration. ([Tutorial](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md))
 * **Oct 27, 2025**: Support Ascend NPU. ([Tutorial](./doc/zh/DeepseekR1_V3_tutorial_zh_for_Ascend_NPU.md))
 * **Oct 10, 2025**: Integrating into SGLang. ([Roadmap](https://github.com/sgl-project/sglang/issues/11425), [Blog](https://lmsys.org/blog/2025-10-22-KTransformers/))
 * **Sept 11, 2025**: Support Qwen3-Next. ([Tutorial](./doc/en/Qwen3-Next.md))
@ -86,7 +87,7 @@ pip install .

 ---

-### 🎓 [kt-sft](./kt-sft/) - Fine-Tuning Framework
+### 🎓 [kt-sft](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md) - Fine-Tuning Framework

 KTransformers × LLaMA-Factory integration for ultra-large MoE model fine-tuning.

@ -108,12 +109,15 @@ KTransformers × LLaMA-Factory integration for ultra-large MoE model fine-tuning

 **Quick Start:**
 ```bash
-cd kt-sft
-# Install environment following kt-sft/README.md
-USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
+cd /path/to/LLaMA-Factory
+pip install -e .
+pip install "ktransformers[sft]"
+USE_KT=1 ACCELERATE_USE_KT=true \
+  accelerate launch --config_file examples/ktransformers/accelerate/fsdp2_kt_bf16.yaml \
+  -m llamafactory.cli train examples/ktransformers/train_lora/deepseek_v3_lora_sft_kt.yaml
 ```

-👉 **[Full Documentation →](./kt-sft/README.md)**
+👉 **[Full Documentation →](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md)**

 ---

--- a/README_ZH.md
+++ b/README_ZH.md
@ -13,13 +13,13 @@

 ## 🎯 概览

-KTransformers 是一个专注于通过 CPU-GPU 异构计算实现大语言模型高效推理和微调的研究项目。该项目已发展为**两个核心模块**：[kt-kernel](./kt-kernel/) 和 [kt-sft](./kt-sft/)。
+KTransformers 是一个专注于通过 CPU-GPU 异构计算实现大语言模型高效推理和微调的研究项目。该项目已发展为**两个核心模块**：[kt-kernel](./kt-kernel/) 和 [kt-sft](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md)。

 ## 🔥 更新

-* **2025 年 12 月 5 日**：支持原生 Kimi-K2-Thinking 推理（[教程](./doc/en/Kimi-K2-Thinking-Native.md)）
+* **2025 年 12 月 5 日**：支持原生 Kimi-K2-Thinking 推理（[教程](./doc/en/kt-kernel/Kimi-K2-Thinking-Native.md)）
 * **2025 年 11 月 6 日**：支持 Kimi-K2-Thinking 推理（[教程](./doc/en/Kimi-K2-Thinking.md)）和微调（[教程](./doc/en/SFT_Installation_Guide_KimiK2.md)）
-* **2025 年 11 月 4 日**：KTransformers 微调 × LLaMA-Factory 集成（[教程](./doc/en/KTransformers-Fine-Tuning_User-Guide.md)）
+* **2025 年 11 月 4 日**：KTransformers 微调 × LLaMA-Factory 集成（[教程](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md)）
 * **2025 年 10 月 27 日**：支持昇腾 NPU（[教程](./doc/zh/DeepseekR1_V3_tutorial_zh_for_Ascend_NPU.md)）
 * **2025 年 10 月 10 日**：集成到 SGLang（[路线图](https://github.com/sgl-project/sglang/issues/11425)，[博客](https://lmsys.org/blog/2025-10-22-KTransformers/)）
 * **2025 年 9 月 11 日**：支持 Qwen3-Next（[教程](./doc/en/Qwen3-Next.md)）
@ -79,7 +79,7 @@ pip install .

 ---

-### 🎓 [kt-sft](./kt-sft/) - 微调框架
+### 🎓 [kt-sft](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md) - 微调框架

 KTransformers × LLaMA-Factory 集成，用于超大型 MoE 模型微调。

@ -101,12 +101,15 @@ KTransformers × LLaMA-Factory 集成，用于超大型 MoE 模型微调。

 **快速开始：**
 ```bash
-cd kt-sft
-# 按照 kt-sft/README.md 安装环境
-USE_KT=1 llamafactory-cli train examples/train_lora/deepseek3_lora_sft_kt.yaml
+cd /path/to/LLaMA-Factory
+pip install -e .
+pip install "ktransformers[sft]"
+USE_KT=1 ACCELERATE_USE_KT=true \
+  accelerate launch --config_file examples/ktransformers/accelerate/fsdp2_kt_bf16.yaml \
+  -m llamafactory.cli train examples/ktransformers/train_lora/deepseek_v3_lora_sft_kt.yaml
 ```

-👉 **[完整文档 →](./kt-sft/README.md)**
+👉 **[完整文档 →](./doc/en/SFT/KTransformers-Fine-Tuning_User-Guide.md)**

 ---

--- a/archive/kt-sft/.flake8
+++ b/archive/kt-sft/.flake8
--- a/archive/kt-sft/.gitignore
+++ b/archive/kt-sft/.gitignore
--- a/archive/kt-sft/.gitmodules
+++ b/archive/kt-sft/.gitmodules
--- a/archive/kt-sft/.pylintrc
+++ b/archive/kt-sft/.pylintrc
--- a/archive/kt-sft/Dockerfile
+++ b/archive/kt-sft/Dockerfile
--- a/archive/kt-sft/Dockerfile.xpu
+++ b/archive/kt-sft/Dockerfile.xpu
--- a/archive/kt-sft/LICENSE
+++ b/archive/kt-sft/LICENSE
--- a/archive/kt-sft/MANIFEST.in
+++ b/archive/kt-sft/MANIFEST.in
--- a/archive/kt-sft/Makefile
+++ b/archive/kt-sft/Makefile
--- a/archive/kt-sft/README.md
+++ b/archive/kt-sft/README.md
--- a/archive/kt-sft/SECURITY.md
+++ b/archive/kt-sft/SECURITY.md
--- a/archive/kt-sft/WeChatGroup.png
+++ b/archive/kt-sft/WeChatGroup.png
--- a/archive/kt-sft/autosetup.sh
+++ b/archive/kt-sft/autosetup.sh
--- a/archive/kt-sft/book.toml
+++ b/archive/kt-sft/book.toml
--- a/archive/kt-sft/csrc/custom_marlin/init.py
+++ b/archive/kt-sft/csrc/custom_marlin/init.py
--- a/archive/kt-sft/csrc/custom_marlin/binding.cpp
+++ b/archive/kt-sft/csrc/custom_marlin/binding.cpp
--- a/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cu
+++ b/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cu
--- a/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cuh
+++ b/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin.cuh
--- a/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_dtypes.cuh
+++ b/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_dtypes.cuh
--- a/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_repack.cu
+++ b/archive/kt-sft/csrc/custom_marlin/gptq_marlin/gptq_marlin_repack.cu
--- a/archive/kt-sft/csrc/custom_marlin/gptq_marlin/ops.h
+++ b/archive/kt-sft/csrc/custom_marlin/gptq_marlin/ops.h
--- a/archive/kt-sft/csrc/custom_marlin/setup.py
+++ b/archive/kt-sft/csrc/custom_marlin/setup.py
--- a/archive/kt-sft/csrc/custom_marlin/test_cuda_graph.py
+++ b/archive/kt-sft/csrc/custom_marlin/test_cuda_graph.py
--- a/archive/kt-sft/csrc/custom_marlin/utils/init.py
+++ b/archive/kt-sft/csrc/custom_marlin/utils/init.py
--- a/archive/kt-sft/csrc/custom_marlin/utils/format24.py
+++ b/archive/kt-sft/csrc/custom_marlin/utils/format24.py
--- a/archive/kt-sft/csrc/custom_marlin/utils/marlin_24_perms.py
+++ b/archive/kt-sft/csrc/custom_marlin/utils/marlin_24_perms.py
--- a/archive/kt-sft/csrc/custom_marlin/utils/marlin_perms.py
+++ b/archive/kt-sft/csrc/custom_marlin/utils/marlin_perms.py
--- a/archive/kt-sft/csrc/custom_marlin/utils/marlin_utils.py
+++ b/archive/kt-sft/csrc/custom_marlin/utils/marlin_utils.py
--- a/archive/kt-sft/csrc/custom_marlin/utils/quant_utils.py
+++ b/archive/kt-sft/csrc/custom_marlin/utils/quant_utils.py
--- a/archive/kt-sft/csrc/ktransformers_ext/CMakeLists.txt
+++ b/archive/kt-sft/csrc/ktransformers_ext/CMakeLists.txt
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_attention.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_attention.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_attention_torch.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_attention_torch.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_linear.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_linear.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_linear_torch.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_linear_torch.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_mlp.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_mlp.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_mlp_torch.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_mlp_torch.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_moe.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_moe.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_moe_amx.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_moe_amx.py
--- a/archive/kt-sft/csrc/ktransformers_ext/bench/bench_moe_torch.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/bench/bench_moe_torch.py
--- a/archive/kt-sft/csrc/ktransformers_ext/cmake/FindSIMD.cmake
+++ b/archive/kt-sft/csrc/ktransformers_ext/cmake/FindSIMD.cmake
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/backend.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/cpuinfer.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/cpuinfer.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/shared_mem_buffer.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/task_queue.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/README.md
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/README.md
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/cuda.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/cuda.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/hip.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/hip.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/musa.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/musa.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/vendor.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cpu_backend/vendors/vendor.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/binding.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/binding.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/dequant.cu
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/dequant.cu
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/ops.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/custom_gguf/ops.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cu
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cu
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cuh
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin.cuh
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin_dtypes.cuh
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/gptq_marlin_dtypes.cuh
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/ops.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/gptq_marlin/ops.h
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/setup.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/setup.py
--- a/archive/kt-sft/csrc/ktransformers_ext/cuda/test_dequant.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/cuda/test_dequant.py
--- a/archive/kt-sft/csrc/ktransformers_ext/examples/test_attention.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/examples/test_attention.py
--- a/archive/kt-sft/csrc/ktransformers_ext/examples/test_linear.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/examples/test_linear.py
--- a/archive/kt-sft/csrc/ktransformers_ext/examples/test_mlp.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/examples/test_mlp.py
--- a/archive/kt-sft/csrc/ktransformers_ext/examples/test_moe.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/examples/test_moe.py
--- a/archive/kt-sft/csrc/ktransformers_ext/examples/test_sft_amx_moe.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/examples/test_sft_amx_moe.py
--- a/archive/kt-sft/csrc/ktransformers_ext/examples/test_sft_moe.py
+++ b/archive/kt-sft/csrc/ktransformers_ext/examples/test_sft_moe.py
--- a/archive/kt-sft/csrc/ktransformers_ext/ext_bindings.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/ext_bindings.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/amx/debug_sft_moe.hpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/amx/debug_sft_moe.hpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/amx/debug_tools_sft_moe.hpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/amx/debug_tools_sft_moe.hpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/amx/la/amx.hpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/amx/la/amx.hpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/amx/la/utils.hpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/amx/la/utils.hpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/amx/moe.hpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/amx/moe.hpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/amx/sft_moe.hpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/amx/sft_moe.hpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache.h
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_attn.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_attn.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_load_dump.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_load_dump.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_read_write.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_read_write.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_utils.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/kvcache/kvcache_utils.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/conversion.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/conversion.h
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/linear.h
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/mlp.h
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/moe.h
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.cpp
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.cpp
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe.h
--- a/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe_forward_cache.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/operators/llamafile/sft_moe_forward_cache.h
--- a/archive/kt-sft/csrc/ktransformers_ext/vendors/cuda.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/vendors/cuda.h
--- a/archive/kt-sft/csrc/ktransformers_ext/vendors/hip.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/vendors/hip.h
--- a/archive/kt-sft/csrc/ktransformers_ext/vendors/musa.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/vendors/musa.h
--- a/archive/kt-sft/csrc/ktransformers_ext/vendors/vendor.h
+++ b/archive/kt-sft/csrc/ktransformers_ext/vendors/vendor.h
--- a/archive/kt-sft/install-with-cache.sh
+++ b/archive/kt-sft/install-with-cache.sh
--- a/archive/kt-sft/install.bat
+++ b/archive/kt-sft/install.bat
--- a/archive/kt-sft/install.sh
+++ b/archive/kt-sft/install.sh
--- a/Show more
+++ b/Show more