doc/AI/nocard.md
2025-11-12 17:00:55 +03:00

5.3 KiB
Raw Blame History

nocard.md

LLM without a video card

2

  • https://github.com/bpmbpm/doc/tree/main/AI/hardware
  • Локальные GPT нейронный сети Характеристики моего домашнего компьютера, на котором я задавал вопросы GPT нейросетям:
    • 8 ядерный 16 поточный процессор AMD Ryzen 7 1700X
    • 64 Гб оперативной памяти двумя планками по 32 Гб DDR4 2666 МГц
      Видеокарту я не использовал, так как в ней мало видеопамяти, и большие нейронные сети в неё не влезут, а постоянно перекидывать данные через узкую PCI-e 3.0 шину не самое быстрое удовольствие.

CPU stand

GPU stand

  • Локальный AI: Прагматичное руководство по запуску LLM на своем железе
    • Уровень 2: "Народный вход" — Nvidia GeForce RTX 3060 12GB. Для кого: Энтузиасты с ограниченным бюджетом. Эта видеокарта — настоящий феномен. Несмотря на свой возраст, она остается лучшим билетом в мир локального AI благодаря своим 12 ГБ VRAM. На вторичном рынке ее можно найти в диапазоне 17-20 тысяч рублей. Этого объема достаточно для комфортной работы с моделями размером до 13 миллиардов параметров.
      Я сам начинал с такой и, как и многие в сообществе, считаю ее более разумной покупкой для AI, чем, например, более новую RTX 5060, у которой всего 8 ГБ памяти на борту. Также, если не хочется заморачиваться с б/у вариантами, можно рассмотреть RTX 5060 с 16GB VRAM, бюджет 45-50 тысяч рублей.
    • Уровень 3: "Золотой стандарт энтузиаста" — Nvidia GeForce RTX 3090 / 3090 Ti 24GB. Да, в играх она уступает новым поколениям, но ее 24 ГБ VRAM — это тот самый «золотой стандарт», который открывает дверь в мир больших моделей (вплоть до 70B в хорошей квантизации). За 70-80 тысяч рублей на вторичном рынке вы получаете карту,
    • современные карты вроде RTX 5070 Ti (16 ГБ) или флагманской RTX 5090 (32 ГБ) предлагают колоссальную производительность. Но, как я уже говорил, для LLM объем VRAM часто важнее скорости. Судя по отчетам энтузиастов, система с 96 ГБ быстрой оперативной памяти и RTX 5080 способна выдавать 25 токенов в секунду на модели Qwen3-Coder 30B с гигантским контекстом в 256 тысяч токенов. Это еще раз доказывает, что мощный GPU должен быть подкреплен не менее мощными CPU и RAM. Также можно построить риг из нескольких видеокарт, например такой или такой
  • Какую видеокарту выбрать для обучения и инференса нейросетей: обзор NVIDIA L40S, A100, H100 и A40

VPS