doc/AI/hardware at 4cb54a9eeabd30bc5aa0d283fc3ac86e8a036310 - vrr/doc

vrr/doc

mirror of https://github.com/bpmbpm/doc.git synced 2026-04-28 11:30:42 +00:00

History

Dmitry 17badbdd55 Update top.md		2026-03-16 13:58:15 +03:00
..
price.md	Create price.md	2025-10-30 15:48:04 +03:00
readme.md	Update readme.md	2025-12-01 13:43:55 +03:00
top.md	Update top.md	2026-03-16 13:58:15 +03:00

readme.md

info

Зачем вашему процессору нейронный блок, если есть RTX 4090?

DeepSeek Hardware

1 Какую версию chat.deepseek (open source) можно запустить на CPU (без GPU) и какие требования к hardware?

Если вы хотите запустить open-source версию DeepSeek Chat на CPU (без GPU), вам подойдут квантованные (уменьшенные) модели, так как полные версии требуют значительных ресурсов. Вот доступные варианты и требования к железу:

1. Доступные open-source модели DeepSeek

DeepSeek выложил в открытый доступ несколько моделей, включая:

DeepSeek LLM (7B, 67B) – базовая языковая модель.
DeepSeek Coder (1.3B, 6.7B, 33B) – оптимизирована для программирования.
DeepSeek Math (7B) – для математических задач.

Какие версии можно запустить на CPU?

7B-модели (например, deepseek-llm-7b) – работают на CPU, но медленно.
1.3B–6.7B (например, deepseek-coder-6.7b) – более быстрые, но менее мощные.
Квантованные версии (GGUF/Q4/Q5) – оптимальны для CPU (например, через llama.cpp).

2. Требования к железу

Модель	ОЗУ (RAM)	Диск	CPU (минимально)	CPU (рекомендуется)
DeepSeek-LLM 7B (FP16)	16+ GB	15+ GB	4+ ядер	8+ ядер (AVX2)
DeepSeek-Coder 6.7B (Q4)	8+ GB	5+ GB	4+ ядер	8+ ядер
DeepSeek-Math 7B (GGUF Q5)	12+ GB	7+ GB	4+ ядер	8+ ядер (AVX/AVX2)

Оптимальные настройки для CPU:

Формат модели: GGUF (для llama.cpp) или Q4_K_M (4-битная квантованная).
Библиотеки:
- llama.cpp (лучше всего для CPU)
- transformers + bitsandbytes (8-битная загрузка)

Пример запуска в llama.cpp:

./main -m deepseek-7b-Q4_K.gguf -p "Привет! Как дела?"

3. Какую модель выбрать?

Для чата/общения: DeepSeek-LLM-7B-Q4 (хороший баланс скорости и качества).
Для программирования: DeepSeek-Coder-6.7B-Q4 (быстрее, но менее мощная, чем 7B).
Для математики: DeepSeek-Math-7B-Q5 (лучше справляется с вычислениями).

4. Где скачать?

Официальный Hugging Face:
→ DeepSeek-LLM
→ DeepSeek-Coder
Квантованные GGUF-версии:
→ TheBloke (DeepSeek GGUF)

Вывод

Лучший вариант для CPU:
DeepSeek-LLM-7B в 4-битном квантованном формате (GGUF) через llama.cpp.
Минимальные требования:

8+ GB ОЗУ, 4+ ядер CPU (лучше 8+), SSD для быстрой загрузки.

Хотите подробную инструкцию по установке? 😊

2 Приведи пример задержек (примерное время ожидания ответа) ответов DeepSeek LLM (7B, 67B) с использованием GPU (несколько моделей GPU разного ценового диапазона) и указанного CPU для DeepSeek-LLM-7B-Q4 (квантованная LLM)? Результат сравнения выведи таблицей.

Вот сравнение задержек ответа для DeepSeek LLM на разных GPU и CPU (квантованная версия 7B-Q4):

Сравнение времени ответа (примерное)

(Тест: генерация ~20-30 слов, контекст 512 токенов, без оптимизаций вроде vLLM)

Оборудование	Модель	VRAM/ОЗУ	Время ответа	Скорость (токен/с)	Примечания
CPU (Intel i7-12700K)	DeepSeek-LLM-7B-Q4	12-16 GB RAM	3–8 сек.	2–5 токен/с	Зависит от оптимизации GGUF.
GPU (RTX 3060, 12GB)	DeepSeek-LLM-7B	12 GB VRAM	0.5–1.5 сек.	15–25 токен/с	FP16, хороший бюджетный вариант.
GPU (RTX 4090, 24GB)	DeepSeek-LLM-7B	24 GB VRAM	0.2–0.8 сек.	30–50 токен/с	Макс. скорость для 7B.
GPU (A100 40GB, PCIe)	DeepSeek-LLM-67B	40 GB VRAM	1–3 сек.	20–40 токен/с	Требует квантования для 67B.
GPU (H100 80GB, SXM5)	DeepSeek-LLM-67B	80 GB VRAM	0.5–1.5 сек.	50–80 токен/с	Оптимально для больших моделей.

Ключевые выводы:

CPU (7B-Q4):
- Работает, но медленно (2–5 токен/с). Подходит для тестирования, но не для продакшена.
- Лучше использовать llama.cpp с AVX2.
GPU (7B):
- RTX 3060/4060 – дёшево, но приемлемая скорость (15–25 токен/с).
- RTX 4090 – почти мгновенные ответы (30–50 токен/с).
GPU (67B):
- Требует A100/H100 или квантования. На A100 – 1–3 сек. на ответ.
Оптимизации:
- Для GPU: vLLM или TensorRT-LLM ускоряют генерацию в 2–3 раза.
- Для CPU: GGUF + llama.cpp с Q4/Q5 дают лучшую производительность.

Пример кода для теста

# Для GPU (7B, через transformers)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-llm-7b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-llm-7b")
input_text = "Как настроить LLM на CPU?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=30)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Для CPU через llama.cpp:

./main -m deepseek-7b-Q4_K.gguf -p "Как настроить LLM на CPU?" -n 30

Если нужно подробнее про конкретную настройку — спрашивайте! 😊

3 Разное

ТГ

https://t.me/agitopics/50983/53246 какой примерно вычислительный ресурс (параметры сервера : CPU, память и GPU) требуется, чтобы комфортно работала модель Qwen 3? Для начала версия - 32B , а потом (в идеале) - 235B.

nvidia

rtx-3060

12 Gb = 30 000: https://www.dns-shop.ru/catalog/recipe/312b2b5f7f5bafe0/rtx-3060/ ; https://www.ozon.ru/category/videokarty-geforce-rtx3060/

readme.md Unescape Escape