diff --git a/ggml/src/ggml-cpu/binary-ops.cpp b/ggml/src/ggml-cpu/binary-ops.cpp
index f62ec7eee..408ee11ce 100644
--- a/ggml/src/ggml-cpu/binary-ops.cpp
+++ b/ggml/src/ggml-cpu/binary-ops.cpp
@@ -57,28 +57,28 @@ static void apply_binary_op(const ggml_compute_params * params, ggml_tensor * ds
 
     GGML_ASSERT(ggml_can_repeat(src1, src0) && ggml_are_same_shape(src0, dst));
 
-    #if defined(GGML_USE_CLBLAST)
-    //do we even need this? it seems like its actually slower than just CPU
-    const int ith = params->ith;
-    if (op == op_add && src0->type == GGML_TYPE_F32 && src1->type == GGML_TYPE_F32 && src1->clblast_offload_gpu) {
-        // TODO: OpenCL kernel support full broadcast
-        static_assert(GGML_MAX_DIMS == 4, "GGML_MAX_DIMS is not 4 - update this function");
-        GGML_ASSERT((src1->ne[0] == src0->ne[0]) && ggml_can_repeat(src1, src0));
-        if (ith == 0) {
-            ggml_cl_add(src0, src1, dst);
-        }
-        return;
-    }
-    if (op == op_mul && src0->type == GGML_TYPE_F32 && src1->clblast_offload_gpu) {
-        // TODO: OpenCL kernel support full broadcast
-        static_assert(GGML_MAX_DIMS == 4, "GGML_MAX_DIMS is not 4 - update this function");
-        GGML_ASSERT((src1->ne[0] == src0->ne[0]) && ggml_can_repeat(src1, src0));
-        if (ith == 0) {
-            ggml_cl_mul(src0, src1, dst);
-        }
-        return;
-    }
-    #endif
+    // #if defined(GGML_USE_CLBLAST)
+    // //do we even need this? it seems like its actually slower than just CPU
+    // const int ith = params->ith;
+    // if (op == op_add && src0->type == GGML_TYPE_F32 && src1->type == GGML_TYPE_F32 && src1->clblast_offload_gpu) {
+    //     // TODO: OpenCL kernel support full broadcast
+    //     static_assert(GGML_MAX_DIMS == 4, "GGML_MAX_DIMS is not 4 - update this function");
+    //     GGML_ASSERT((src1->ne[0] == src0->ne[0]) && ggml_can_repeat(src1, src0));
+    //     if (ith == 0) {
+    //         ggml_cl_add(src0, src1, dst);
+    //     }
+    //     return;
+    // }
+    // if (op == op_mul && src0->type == GGML_TYPE_F32 && src1->clblast_offload_gpu) {
+    //     // TODO: OpenCL kernel support full broadcast
+    //     static_assert(GGML_MAX_DIMS == 4, "GGML_MAX_DIMS is not 4 - update this function");
+    //     GGML_ASSERT((src1->ne[0] == src0->ne[0]) && ggml_can_repeat(src1, src0));
+    //     if (ith == 0) {
+    //         ggml_cl_mul(src0, src1, dst);
+    //     }
+    //     return;
+    // }
+    // #endif
 
     GGML_TENSOR_BINARY_OP_LOCALS
 
diff --git a/koboldcpp.py b/koboldcpp.py
index bb980c1c6..9bf9db35f 100644
--- a/koboldcpp.py
+++ b/koboldcpp.py
@@ -49,7 +49,7 @@ logit_bias_max = 512
 dry_seq_break_max = 128
 
 # global vars
-KcppVersion = "1.87.1"
+KcppVersion = "1.87.2"
 showdebug = True
 kcpp_instance = None #global running instance
 global_memory = {"tunnel_url": "", "restart_target":"", "input_to_exit":False, "load_complete":False}
@@ -5678,6 +5678,7 @@ def kcpp_main_process(launch_args, g_memory=None, gui_launcher=False):
         filepath = os.path.abspath(args.savedatafile)  # Ensure it's an absolute path
         if not filepath.endswith(".jsondb"):
             filepath += ".jsondb"
+            args.savedatafile += ".jsondb"
         try:
             with open(filepath, 'r+', encoding='utf-8', errors='ignore') as f:
                 loaded = json.load(f)