diff --git a/common/sampling.cpp b/common/sampling.cpp
index 76a3bd547..8d69d11a4 100644
--- a/common/sampling.cpp
+++ b/common/sampling.cpp
@@ -132,7 +132,7 @@ static void sampler_queue(
     const float         temp              = params.temp;
     const float         dynatemp_range    = params.dynatemp_range;
     const float         dynatemp_exponent = params.dynatemp_exponent;
-    const int32_t       top_k             = params.top_k <= 0 ? n_vocab : params.top_k;
+    const int32_t       top_k             = params.top_k;
     const float         top_p             = params.top_p;
     const float         min_p             = params.min_p;
     const float         tfs_z             = params.tfs_z;
diff --git a/examples/llava/README.md b/examples/llava/README.md
index 323c5fdd0..295181a34 100644
--- a/examples/llava/README.md
+++ b/examples/llava/README.md
@@ -21,7 +21,7 @@ After building, run: `./llava-cli` to see the usage. For example:
 
 ## Model conversion
 
-- Clone `llava-v15-7b`` and `clip-vit-large-patch14-336`` locally:
+- Clone `llava-v15-7b` and `clip-vit-large-patch14-336` locally:
 
 ```sh
 git clone https://huggingface.co/liuhaotian/llava-v1.5-7b
diff --git a/llama.cpp b/llama.cpp
index 6efdc0962..cc59f781c 100644
--- a/llama.cpp
+++ b/llama.cpp
@@ -8890,6 +8890,10 @@ void llama_sample_top_k(struct llama_context * ctx, llama_token_data_array * can
     // }
 
     const int64_t t_start_sample_us = ggml_time_us();
+    
+    if (k <= 0) {
+        k = candidates->size;
+    }
 
     k = std::max(k, (int) min_keep);
     k = std::min(k, (int) candidates->size);
diff --git a/tests/.gitignore b/tests/.gitignore
index 092dce742..9427cf13d 100644
--- a/tests/.gitignore
+++ b/tests/.gitignore
@@ -1,3 +1,3 @@
 *
 !*.*
-test-c.o
+*.o