doc/AI/hardware
2026-03-16 13:58:15 +03:00
..
price.md Create price.md 2025-10-30 15:48:04 +03:00
readme.md Update readme.md 2025-12-01 13:43:55 +03:00
top.md Update top.md 2026-03-16 13:58:15 +03:00

info

DeepSeek Hardware

1 Какую версию chat.deepseek (open source) можно запустить на CPU (без GPU) и какие требования к hardware?

Если вы хотите запустить open-source версию DeepSeek Chat на CPU (без GPU), вам подойдут квантованные (уменьшенные) модели, так как полные версии требуют значительных ресурсов. Вот доступные варианты и требования к железу:


1. Доступные open-source модели DeepSeek

DeepSeek выложил в открытый доступ несколько моделей, включая:

  • DeepSeek LLM (7B, 67B) базовая языковая модель.
  • DeepSeek Coder (1.3B, 6.7B, 33B) оптимизирована для программирования.
  • DeepSeek Math (7B) для математических задач.

Какие версии можно запустить на CPU?

  • 7B-модели (например, deepseek-llm-7b) работают на CPU, но медленно.
  • 1.3B6.7B (например, deepseek-coder-6.7b) более быстрые, но менее мощные.
  • Квантованные версии (GGUF/Q4/Q5) оптимальны для CPU (например, через llama.cpp).

2. Требования к железу

Модель ОЗУ (RAM) Диск CPU (минимально) CPU (рекомендуется)
DeepSeek-LLM 7B (FP16) 16+ GB 15+ GB 4+ ядер 8+ ядер (AVX2)
DeepSeek-Coder 6.7B (Q4) 8+ GB 5+ GB 4+ ядер 8+ ядер
DeepSeek-Math 7B (GGUF Q5) 12+ GB 7+ GB 4+ ядер 8+ ядер (AVX/AVX2)

Оптимальные настройки для CPU:

  • Формат модели: GGUF (для llama.cpp) или Q4_K_M (4-битная квантованная).
  • Библиотеки:
    • llama.cpp (лучше всего для CPU)
    • transformers + bitsandbytes (8-битная загрузка)
  • Пример запуска в llama.cpp:
    ./main -m deepseek-7b-Q4_K.gguf -p "Привет! Как дела?"
    

3. Какую модель выбрать?

  • Для чата/общения: DeepSeek-LLM-7B-Q4 (хороший баланс скорости и качества).
  • Для программирования: DeepSeek-Coder-6.7B-Q4 (быстрее, но менее мощная, чем 7B).
  • Для математики: DeepSeek-Math-7B-Q5 (лучше справляется с вычислениями).

4. Где скачать?


Вывод

Лучший вариант для CPU:
DeepSeek-LLM-7B в 4-битном квантованном формате (GGUF) через llama.cpp.
Минимальные требования:

  • 8+ GB ОЗУ, 4+ ядер CPU (лучше 8+), SSD для быстрой загрузки.

Хотите подробную инструкцию по установке? 😊

2 Приведи пример задержек (примерное время ожидания ответа) ответов DeepSeek LLM (7B, 67B) с использованием GPU (несколько моделей GPU разного ценового диапазона) и указанного CPU для DeepSeek-LLM-7B-Q4 (квантованная LLM)? Результат сравнения выведи таблицей.

Вот сравнение задержек ответа для DeepSeek LLM на разных GPU и CPU (квантованная версия 7B-Q4):

Сравнение времени ответа (примерное)

(Тест: генерация ~20-30 слов, контекст 512 токенов, без оптимизаций вроде vLLM)

Оборудование Модель VRAM/ОЗУ Время ответа Скорость (токен/с) Примечания
CPU (Intel i7-12700K) DeepSeek-LLM-7B-Q4 12-16 GB RAM 38 сек. 25 токен/с Зависит от оптимизации GGUF.
GPU (RTX 3060, 12GB) DeepSeek-LLM-7B 12 GB VRAM 0.51.5 сек. 1525 токен/с FP16, хороший бюджетный вариант.
GPU (RTX 4090, 24GB) DeepSeek-LLM-7B 24 GB VRAM 0.20.8 сек. 3050 токен/с Макс. скорость для 7B.
GPU (A100 40GB, PCIe) DeepSeek-LLM-67B 40 GB VRAM 13 сек. 2040 токен/с Требует квантования для 67B.
GPU (H100 80GB, SXM5) DeepSeek-LLM-67B 80 GB VRAM 0.51.5 сек. 5080 токен/с Оптимально для больших моделей.

Ключевые выводы:

  1. CPU (7B-Q4):

    • Работает, но медленно (25 токен/с). Подходит для тестирования, но не для продакшена.
    • Лучше использовать llama.cpp с AVX2.
  2. GPU (7B):

    • RTX 3060/4060 дёшево, но приемлемая скорость (1525 токен/с).
    • RTX 4090 почти мгновенные ответы (3050 токен/с).
  3. GPU (67B):

    • Требует A100/H100 или квантования. На A100 13 сек. на ответ.
  4. Оптимизации:

    • Для GPU: vLLM или TensorRT-LLM ускоряют генерацию в 23 раза.
    • Для CPU: GGUF + llama.cpp с Q4/Q5 дают лучшую производительность.

Пример кода для теста

# Для GPU (7B, через transformers)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-llm-7b")
input_text = "Как настроить LLM на CPU?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=30)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Для CPU через llama.cpp:

./main -m deepseek-7b-Q4_K.gguf -p "Как настроить LLM на CPU?" -n 30

Если нужно подробнее про конкретную настройку — спрашивайте! 😊

3 Разное

ТГ

  • https://t.me/agitopics/50983/53246 какой примерно вычислительный ресурс (параметры сервера : CPU, память и GPU) требуется, чтобы комфортно работала модель Qwen 3? Для начала версия - 32B , а потом (в идеале) - 235B.

nvidia

rtx-3060