Merge branch 'master' into concedo_experimental

# Conflicts: # .github/workflows/build.yml # .github/workflows/docker.yml # CMakeLists.txt # Makefile # README.md # ci/README.md # ci/run.sh # flake.lock # ggml-metal.m # ggml-opencl.cpp # ggml-vulkan-shaders.hpp # ggml-vulkan.cpp # ggml-vulkan.h # ggml.c # ggml_vk_generate_shaders.py # llama.cpp # llama.h # pocs/vdot/vdot.cpp # tests/test-llama-grammar.cpp # tests/test-sampling.cpp
2025-09-11 09:34:37 +00:00 · 2024-01-29 23:12:09 +08:00 · 2024-01-29 23:12:09 +08:00 · f73de33f74
commit f73de33f74
parent f81404e33c fbe7dfa53c
37 changed files with 37432 additions and 21072 deletions
--- a/llama.h
+++ b/llama.h
@ -6,6 +6,9 @@
 #ifdef GGML_USE_CUBLAS
 #include "ggml-cuda.h"
 #define LLAMA_MAX_DEVICES 16
+#elif defined(GGML_USE_SYCL)
+#include "ggml-sycl.h"
+#define LLAMA_MAX_DEVICES GGML_SYCL_MAX_DEVICES
 #else
 //just max it out, same as GGML_CUDA_MAX_DEVICES
 #define LLAMA_MAX_DEVICES 16
@ -47,7 +50,7 @@
 #define LLAMA_SESSION_MAGIC   LLAMA_FILE_MAGIC_GGSN
 #define LLAMA_SESSION_VERSION 4

-#if defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST) || defined(GGML_USE_METAL) || defined(GGML_USE_VULKAN)
+#if defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST) || defined(GGML_USE_METAL) || defined(GGML_USE_VULKAN) || defined(GGML_USE_SYCL)
 // Defined when llama.cpp is compiled with support for offloading model layers to GPU.
 #define LLAMA_SUPPORTS_GPU_OFFLOAD
 #endif