mirror of
https://github.com/bpmbpm/doc.git
synced 2026-04-28 11:30:42 +00:00
5.3 KiB
5.3 KiB
nocard.md
LLM without a video card
- Собственный ИИ локально, бесплатно и без GPU
- https://www.reddit.com/r/LocalLLM/comments/1mnc61x/llm_for_nongpu_machine/?tl=ru
2
- https://github.com/bpmbpm/doc/tree/main/AI/hardware
- Локальные GPT нейронный сети Характеристики моего домашнего компьютера, на котором я задавал вопросы GPT нейросетям:
- 8 ядерный 16 поточный процессор AMD Ryzen 7 1700X
- 64 Гб оперативной памяти двумя планками по 32 Гб DDR4 2666 МГц
Видеокарту я не использовал, так как в ней мало видеопамяти, и большие нейронные сети в неё не влезут, а постоянно перекидывать данные через узкую PCI-e 3.0 шину не самое быстрое удовольствие.
CPU stand
- https://1dedic.ru/blog/articles/lokalnoe-ispolzovanie-yazykovoy-modeli-na-vydelennom-servere-chast-pervaya-deepseek-i-eyo
- Локальное использование языковой модели на выделенном сервере. Часть первая: DeepSeek и её дистилляты на сервере без GPU Были протестированы следующие модели:
- deepseek-r1:70b — соответствует по параметрам DeepSeek R1 Distill Llama 70B,
- deepseek-r1:32b — соответствует по параметрам DeepSeek R1 Distill Qwen 32B,
- deepseek-r1:1.5b — соответствует по параметрам DeepSeek R1 Distill Qwen 1.5B.
GPU stand
- Локальный AI: Прагматичное руководство по запуску LLM на своем железе
- Уровень 2: "Народный вход" — Nvidia GeForce RTX 3060 12GB. Для кого: Энтузиасты с ограниченным бюджетом. Эта видеокарта — настоящий феномен. Несмотря на свой возраст, она остается лучшим билетом в мир локального AI благодаря своим 12 ГБ VRAM. На вторичном рынке ее можно найти в диапазоне 17-20 тысяч рублей. Этого объема достаточно для комфортной работы с моделями размером до 13 миллиардов параметров.
Я сам начинал с такой и, как и многие в сообществе, считаю ее более разумной покупкой для AI, чем, например, более новую RTX 5060, у которой всего 8 ГБ памяти на борту. Также, если не хочется заморачиваться с б/у вариантами, можно рассмотреть RTX 5060 с 16GB VRAM, бюджет 45-50 тысяч рублей. - Уровень 3: "Золотой стандарт энтузиаста" — Nvidia GeForce RTX 3090 / 3090 Ti 24GB. Да, в играх она уступает новым поколениям, но ее 24 ГБ VRAM — это тот самый «золотой стандарт», который открывает дверь в мир больших моделей (вплоть до 70B в хорошей квантизации). За 70-80 тысяч рублей на вторичном рынке вы получаете карту,
- современные карты вроде RTX 5070 Ti (16 ГБ) или флагманской RTX 5090 (32 ГБ) предлагают колоссальную производительность. Но, как я уже говорил, для LLM объем VRAM часто важнее скорости. Судя по отчетам энтузиастов, система с 96 ГБ быстрой оперативной памяти и RTX 5080 способна выдавать 25 токенов в секунду на модели Qwen3-Coder 30B с гигантским контекстом в 256 тысяч токенов. Это еще раз доказывает, что мощный GPU должен быть подкреплен не менее мощными CPU и RAM. Также можно построить риг из нескольких видеокарт, например такой или такой
- Уровень 2: "Народный вход" — Nvidia GeForce RTX 3060 12GB. Для кого: Энтузиасты с ограниченным бюджетом. Эта видеокарта — настоящий феномен. Несмотря на свой возраст, она остается лучшим билетом в мир локального AI благодаря своим 12 ГБ VRAM. На вторичном рынке ее можно найти в диапазоне 17-20 тысяч рублей. Этого объема достаточно для комфортной работы с моделями размером до 13 миллиардов параметров.
- Какую видеокарту выбрать для обучения и инференса нейросетей: обзор NVIDIA L40S, A100, H100 и A40