doc/AI/nocard.md at a289ba8803f76e3018b262e7694b70d2275c86ca

vrr/doc

Fork 0

mirror of https://github.com/bpmbpm/doc.git synced 2026-04-28 11:30:42 +00:00

Dmitry 8e04712a94

Update nocard.md

2025-11-12 17:00:55 +03:00

5.3 KiB

Raw Blame History

nocard.md

LLM without a video card

2

https://github.com/bpmbpm/doc/tree/main/AI/hardware
Локальные GPT нейронный сети Характеристики моего домашнего компьютера, на котором я задавал вопросы GPT нейросетям:
- 8 ядерный 16 поточный процессор AMD Ryzen 7 1700X
- 64 Гб оперативной памяти двумя планками по 32 Гб DDR4 2666 МГц
  Видеокарту я не использовал, так как в ней мало видеопамяти, и большие нейронные сети в неё не влезут, а постоянно перекидывать данные через узкую PCI-e 3.0 шину не самое быстрое удовольствие.

CPU stand

https://1dedic.ru/blog/articles/lokalnoe-ispolzovanie-yazykovoy-modeli-na-vydelennom-servere-chast-pervaya-deepseek-i-eyo
Локальное использование языковой модели на выделенном сервере. Часть первая: DeepSeek и её дистилляты на сервере без GPU Были протестированы следующие модели:
- deepseek-r1:70b — соответствует по параметрам DeepSeek R1 Distill Llama 70B,
- deepseek-r1:32b — соответствует по параметрам DeepSeek R1 Distill Qwen 32B,
- deepseek-r1:1.5b — соответствует по параметрам DeepSeek R1 Distill Qwen 1.5B.

GPU stand

Локальный AI: Прагматичное руководство по запуску LLM на своем железе
- Уровень 2: "Народный вход" — Nvidia GeForce RTX 3060 12GB. Для кого: Энтузиасты с ограниченным бюджетом. Эта видеокарта — настоящий феномен. Несмотря на свой возраст, она остается лучшим билетом в мир локального AI благодаря своим 12 ГБ VRAM. На вторичном рынке ее можно найти в диапазоне 17-20 тысяч рублей. Этого объема достаточно для комфортной работы с моделями размером до 13 миллиардов параметров.
  Я сам начинал с такой и, как и многие в сообществе, считаю ее более разумной покупкой для AI, чем, например, более новую RTX 5060, у которой всего 8 ГБ памяти на борту. Также, если не хочется заморачиваться с б/у вариантами, можно рассмотреть RTX 5060 с 16GB VRAM, бюджет 45-50 тысяч рублей.
- Уровень 3: "Золотой стандарт энтузиаста" — Nvidia GeForce RTX 3090 / 3090 Ti 24GB. Да, в играх она уступает новым поколениям, но ее 24 ГБ VRAM — это тот самый «золотой стандарт», который открывает дверь в мир больших моделей (вплоть до 70B в хорошей квантизации). За 70-80 тысяч рублей на вторичном рынке вы получаете карту,
- современные карты вроде RTX 5070 Ti (16 ГБ) или флагманской RTX 5090 (32 ГБ) предлагают колоссальную производительность. Но, как я уже говорил, для LLM объем VRAM часто важнее скорости. Судя по отчетам энтузиастов, система с 96 ГБ быстрой оперативной памяти и RTX 5080 способна выдавать 25 токенов в секунду на модели Qwen3-Coder 30B с гигантским контекстом в 256 тысяч токенов. Это еще раз доказывает, что мощный GPU должен быть подкреплен не менее мощными CPU и RAM. Также можно построить риг из нескольких видеокарт, например такой или такой
Какую видеокарту выбрать для обучения и инференса нейросетей: обзор NVIDIA L40S, A100, H100 и A40

VPS

Установка LLM на скромном VPS

5.3 KiB Raw Blame History Unescape Escape

nocard.md

LLM without a video card

2

CPU stand

GPU stand

VPS

5.3 KiB

Raw Blame History