Прошлой весной я впервые столкнулся с нейросетью — Гигачат от Сбербанка. До этого я считал такие сервисы «несерьёзной фигнёй». После нескольких экспериментов с Гигачатом моё мнение кардинально изменилось: ответы оказались впечатляющими, и я начал задумываться о применении ИИ в работе.
Однако использовать внешний сервис в коммерческих проектах оказалось дорогим. Я начал искать альтернативу — локальные модели, которые можно запускать на собственном железе без постоянных расходов.
Для начала я собрал компьютер с двумя видеокартами RTX 5070 (12 ГБ видеопамяти каждая) и 64 ГБ ОЗУ. На нём удалось запустить небольшие модели (до 20 ГБ), которые работали приемлемо, но всё равно уступали Гигачату по качеству и скорости. Плюс был очевиден: всё происходило локально, без ограничений со стороны провайдера.
Чтобы сравнивать более крупные модели, я вложил поборов свою внутреннюю "жабу" в следующую конфигурацию:
|
КОМПОНЕНТ |
ХАРАКТЕРИСТИКА |
|
GPU |
2 × RTX 4090 (48 ГБ VRAM каждая) |
|
Оперативная память DDR5 |
192Гб (4 планки по 48Гб) |
|
Процессор |
Intel i9‑14900K |
|
Материнская плата |
ASUS ROG MAXIMUS Z790 DARK HERO |
Эта система позволяет запускать модели размером до ≈ 100 ГБ, а скорость вычислений выросла в разы.
Недавно на Хабре я нашел статью Задача Эйнштейна — большой тест LLM нейросетей на логическое мышление / Хабр. Я решил проверить, как моя локальная модель справится с этим тестом. И вот какие результаты я получил.
|
Модель |
Параметры |
Объём VRAM |
Время решения |
Результат |
|
gpt‑oss:120b |
120 млрд параметров |
~70Gb |
1 мин |
ВЕРНО |
|
Qwen3‑next:80b |
80 млрд параметров |
~50Gb |
1 мин |
ВЕРНО |
|
DevStral2‑123b |
123 млрд параметров |
~95Gb |
14 мин |
НЕ ВЕРНО |
|
Гигачат (Сбербанк) |
неизвестно, но много |
очень много |
12 мин |
НЕ ВЕРНО |
Что мы видим?
Модели, запущенные локально на мощном железе (gpt‑oss 120b, Qwen3‑next 80b), дают быстрый и правильный результат.
Некоторые крупные модели (DevStral2‑123b) работают медленно и дают ошибку, несмотря на полное использование GPU.
Сервис Гигачат, работающий на «больших серверах», в данном случае решал задачу дольше и выдал неверный ответ.
Выводы:
Локальный запуск может превзойти облачные сервисы – при достаточном оборудовании модель способна быстрее и точнее решать задачи, чем коммерческий API.
Не всякая «большая» модель гарантирует качество – размер параметров не всегда коррелирует с точностью; оптимизация и обучение играют большую роль.
Стоимость vs. контроль – собственный сервер избавляет от расходов на запросы к API и даёт полный контроль над данными и настройками, но требует значительных капитальных вложений в оборудование.
Конечно события с текущими ценами на память и ажиотажем делают сборку такого сервера еще более недоступной, но мне видимо повезло, я его собрал прошлым летом как раз перед бумом.
Если у вас есть аналогичный опыт или идеи по оптимизации локальных ИИ серверов, буду рад обсудить в комментариях!
Источник


