vulkan: enable mmvq for q2_k on NVIDIA (#17675)

2026-05-10 04:00:53 +00:00 · 2025-12-05 14:21:57 -06:00 · 2025-12-05 14:21:57 -06:00 · 6ab0d64960
commit 6ab0d64960
parent 93bb92664e
1 changed files with 4 additions and 0 deletions
--- a/ggml/src/ggml-vulkan/ggml-vulkan.cpp
+++ b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
@ -6948,6 +6948,10 @@ static bool ggml_vk_should_use_mmvq(const vk_device& device, uint32_t m, uint32_
    // Quantization overhead is not worth it for small k
    switch (device->vendor_id) {
    case VK_VENDOR_ID_NVIDIA:
+        if (src0_type == GGML_TYPE_Q2_K) {
+            return true;
+        }
+
        if (k <= 4096) {
            return false;
        }