koboldcpp

mirror of https://github.com/LostRuins/koboldcpp.git synced 2026-06-01 22:50:53 +00:00

History

Richard Davison 5eae9cb1d9 ggml : add NVFP4 quantization type support (#19769 ) * WIP: add NVFP4 quantization support * tests * improve NVFP4 dot product implementation performance and fix bad super call * typo * Use nvfp4 kvalues * vulkan : fix NVFP4 shader compilation by including kvalues_mxfp4 lookup table * vulcal and perf fixes * wip * Fix metal * fix vulcan * Rename threshold & fix wrong scale * Fix MOE * Shelf backend implementations (CUDA, Metal, Vulkan, arch-specific SIMD) Remove NVFP4 support from GPU backends and architecture-specific optimized dot products. These should be added in separate PRs so backend specialists can review them independently. Reverted files: - ggml-cuda: common.cuh, convert.cu, mmq.cu/cuh, mmvq.cu, vecdotq.cuh, quantize.cu/cuh, mma.cuh, ggml-cuda.cu, fattn-tile.cuh - ggml-metal: ggml-metal.metal, ggml-metal-device.cpp, ggml-metal-impl.h, ggml-metal-ops.cpp - ggml-vulkan: ggml-vulkan.cpp, all vulkan-shaders/* - ggml-cpu arch: arm/quants.c, x86/quants.c, powerpc/quants.c, s390/quants.c Core NVFP4 support (type definition, CPU fallback dot product, quantization, dequantization, conversion) is retained. * Fix arch-fallback.h: add NVFP4 generic fallback for all platforms After shelving backend-specific SIMD implementations, the generic CPU dot product needs to be aliased on ARM, x86, PowerPC, and s390 platforms that previously relied on arch-specific versions. * quantize: add NVFP4 as a quantization type option * Fix ggml_fp32_to_ue4m3: handle subnormal values Previously, values with ue4m3_exp <= 0 were clamped to 0, causing all small scales to underflow. This made NVFP4 quantization via llama-quantize produce garbage (PPL = 5.8M) since typical transformer weights have amax/6.0 in the range 0.001-0.01, which falls in the UE4M3 subnormal range. Now subnormals are properly encoded as man * 2^-9 (exp=0, man=1..7), matching the decode path in ggml_ue4m3_to_fp32. Result: NVFP4 requantization now produces PPL = 15.25 (vs F16 = 14.33), comparable to Q4_1 (PPL = 15.81) at slightly lower BPW (4.70 vs 5.15). * Restore ARM NEON NVFP4 dot product implementation Restores the optimized ggml_vec_dot_nvfp4_q8_0 for ARM NEON using vqtbl1q_s8 lookup and ggml_vdotq_s32 dot products. tg128 performance: 4.37 t/s (generic) -> 13.66 t/s (NEON) = 3.1x speedup * Optimize ARM NEON NVFP4 dot product: LUT + vpaddq + vfmaq - Add ue4m3_scale_lut[128] to ggml-common.h replacing branch-heavy ggml_ue4m3_to_fp32() in the hot loop - Use vpaddq_s32 for pairwise int32 reduction instead of vaddvq_s32 - Accumulate with vfmaq_f32 into float32x4_t vector accumulators tg128: 8.1 -> 31.0 t/s (3.8x speedup, 77% of Q4_1 speed) * ARM NEON NVFP4: rearrange q8 to match nibble layout Alternative approach: rearrange q8 data to match the NVFP4 lo/hi nibble layout instead of rearranging the looked-up NVFP4 values. Eliminates vcombine_s8(vget_low, vget_low) shuffles. Performance is equivalent (~18.5 t/s) - the bottleneck is the 2x block overhead from QK=16 vs QK=32, not the shuffle instructions. * CPU only backend 64 super-block layout * cleanup * Remove unused LUT * int * exclude NVFP4 from unsupported ops in metal build * remove quantization for now * store scales as native UE4M3, preserve original model bits when possible * Update convert_hf_to_gguf.py Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com> * correct comment * format * reduce duplication and cleanup * Address comments * move detection to prepare_tensors * Use math instead of const * Move * fix comment * Shelf quantize tests * Rebase and move check * cleanup * lint * Update gguf-py/gguf/scripts/gguf_convert_endian.py Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com> * Use fallback quant config * Simplify Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com> * organize * Refactor * Update convert_hf_to_gguf.py Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com> * Update convert_hf_to_gguf.py Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com> * Update convert_hf_to_gguf.py Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com> * add quantize_nvfp4 (required for test_quants.py) * add quantize_nvfp4 (required for test_quants.py) * add quantize_nvfp4 (required for test_quants.py) * fix return type --------- Co-authored-by: Sigbjørn Skjæret <sigbjorn.skjaeret@scala.com>		2026-03-11 21:02:54 +01:00
..
afmoe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
apertus.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
arcee.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
arctic.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
arwkv7.cpp	refactor : llama-model.cpp (#16252 )	2025-10-31 23:40:23 +01:00
baichuan.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
bailingmoe.cpp	graph : remove redundant scale_w parameter (#20235 )	2026-03-08 18:58:28 +01:00
bailingmoe2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
bert.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
bitnet.cpp	ggml : add NVFP4 quantization type support (#19769 )	2026-03-11 21:02:54 +01:00
bloom.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
chameleon.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
chatglm.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
codeshell.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
cogvlm.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
cohere2-iswa.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
command-r.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
dbrx.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
deci.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
deepseek.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
deepseek2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
delta-net-base.cpp	ggml: add GATED_DELTA_NET op (#19504 )	2026-03-07 15:41:10 +08:00
dots1.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
dream.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
ernie4-5-moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
ernie4-5.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
eurobert.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
exaone-moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
exaone.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
exaone4.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
falcon-h1.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
falcon.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gemma-embedding.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gemma.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gemma2-iswa.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gemma3.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gemma3n-iswa.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
glm4-moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
glm4.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gpt2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
gptneox.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
granite-hybrid.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
granite.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
grok.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
grovemoe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
hunyuan-dense.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
hunyuan-moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
internlm2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
jais.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
jais2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
jamba.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
kimi-linear.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
lfm2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
llada-moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
llada.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
llama-iswa.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
llama.cpp	ggml : add NVFP4 quantization type support (#19769 )	2026-03-11 21:02:54 +01:00
maincoder.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
mamba-base.cpp	models : fix assert in mamba2 (cont) (#20335 )	2026-03-10 15:00:08 +02:00
mamba.cpp	models : deduplicate delta-net graphs for Qwen family (#19597 )	2026-02-16 14:35:04 +02:00
mimo2-iswa.cpp	graph : remove redundant scale_w parameter (#20235 )	2026-03-08 18:58:28 +01:00
minicpm3.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
minimax-m2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
mistral3.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
models.h	chore : correct typos [no ci] (#20041 )	2026-03-05 08:50:21 +01:00
modern-bert.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
mpt.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
nemotron-h.cpp	llama : add support for Nemotron 3 Super (#20411 )	2026-03-11 19:27:53 +01:00
nemotron.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
neo-bert.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
olmo.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
olmo2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
olmoe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
openai-moe-iswa.cpp	graph : remove redundant scale_w parameter (#20235 )	2026-03-08 18:58:28 +01:00
openelm.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
orion.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
paddleocr.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
pangu-embedded.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
phi2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
phi3.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
plamo.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
plamo2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
plamo3.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
plm.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen2moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen2vl.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen3.cpp	ggml : add NVFP4 quantization type support (#19769 )	2026-03-11 21:02:54 +01:00
qwen3moe.cpp	ggml : add NVFP4 quantization type support (#19769 )	2026-03-11 21:02:54 +01:00
qwen3next.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen3vl-moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen3vl.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen35.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
qwen35moe.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
refact.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
rnd1.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
rwkv6-base.cpp	models : deduplicate delta-net graphs for Qwen family (#19597 )	2026-02-16 14:35:04 +02:00
rwkv6.cpp	refactor : llama-model.cpp (#16252 )	2025-10-31 23:40:23 +01:00
rwkv6qwen2.cpp	refactor : llama-model.cpp (#16252 )	2025-10-31 23:40:23 +01:00
rwkv7-base.cpp	models : deduplicate delta-net graphs for Qwen family (#19597 )	2026-02-16 14:35:04 +02:00
rwkv7.cpp	refactor : llama-model.cpp (#16252 )	2025-10-31 23:40:23 +01:00
seed-oss.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
smallthinker.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
smollm3.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
stablelm.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
starcoder.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
starcoder2.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
step35-iswa.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
t5-dec.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
t5-enc.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00
wavtokenizer-dec.cpp	chore : fix models indent after refactor (#16992 )	2025-11-04 12:29:15 +01:00
xverse.cpp	llama: dynamic head_dim and n_rot for SWA (#20301 )	2026-03-09 22:22:39 +01:00