БиржаDEX+

Купить крипто Рынки Спотовая Фьючерсы500X Сбережения Мероприятия

Еще

Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекстЭтот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст

Сколько VRAM нужно для нейросетей?

Автор: ProBlockChain

Источник: ProBlockChain

2025/12/21 21:16

Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow.

VRAM requirements

Для начала - график с оптимальными и минимальными значениями VRAM для image и video моделей.

Почему упор на обьем VRAM? При недостатке памяти вы либо не запустите модель, либо одна генерация будет длиться 1-2+ минуты (для image), что делает модель абсолютно не юзабельной. И да - с 8 gb можно запустить, например FLUX fp8, но это будет похоже на общение по почте - долго и муторно.

До минимальных значений модель либо выдаст ошибку, либо будет часто забирать global memory, что замедлит ее в разы. Оптимальное значение - это либо официальное требование VRAM, либо максимальное число по комьюнити тестам, выше которого обьем уже не даст приемущества в скорости.

Что влияет на размер нейросети?

Почти все веса модели - это матрицы и вектора (ну или weights and biases), которые еще называют "параметрами", вы могли видеть, что одна модель имеет размер 32B, у GPT-5 вообще 2 триллиона параметров и т.п. Они имеют precision или quantization level и отличаются по количеству байт.

Самые популярные форматы:

FP16 - (16-bit floating point) 2 байта на параметр
BF16 - (16-bit floating point) 2 байта - разница в Exponent и Fraction битах
FP32 - (32-bit floating point) 4 байта
FP8 - здесь начинается квантизация - это самый популярный формат, требует 1 байт на параметр
GGUF - уже немного другой формат, но включим его сюда, квантизация начинается от Q2 до Q8, gguf - самый оптимизированный вариант

Соответственно, можно радикально сжать модель, если параметр будет весить не 4 байта, а один.

Quantization

Если у вас недостаточно VRAM, или базовая модель огромна - ищите quantized версии (fp8, GGUF, lightning).

Quantization снижает битность параметра (FP32 --> FP16) и может поменять float на int (FP32 --> INT8), что сильнее оптимизирует нейросеть, снизит computational и memory costs. Говорят даже о снижении потребления энергии, но это в теории.

Да, за оптимизацию нужно платить качеством, но это не столь критично, когда стоит вопрос между использованием и не использованием нейросети.

(По правде, в личных тестах я почти не заметил отличий FLUX.1-Dev и fp8 версии, они становятся видны при снижении количества параметров (WAN 2.2 (14B) и (WAN 2.2 (5B)) или с изменением workflow (FLUX-Dev и FLUX.Schnell))

Зачем вам GPU?

Нейросети нагружают железо матричными операциями, сами матрицы большие, нейронов и слоев бывает много - значит нам важен обьем памяти и скорость вычислений.

За вычисления отвечают ядра, у GPU их больше, чем у CPU, плюс отличия в архитектуре дают многократное приемущество в паралельных задачах. Тензорные ядра могут складывать и умножать матрицы за одну операцию. Все это важно для нейросетей, 3D, мат. анализа и любой big data.

При работе с нейросетями приходится делать много итераций: править промт, конфиг, делать тесты и чинить сломанные моменты. Чем короче каждая итерация - тем быстрее дорога к нужному результату.

Основа скорости - тензорные ядра. Они настолько быстрые, что основной проблемой становится скорость VRAM.

Memory bandwidth

GPU имеет собственную память (VRAM), она разделяется по блокам:

Streaming Multiprocessors (SM):
- Registers
- Shared Memory
- L1 Cache
L2 Cache
Global Memory

L1, Shared Memory, L2, Registers - отличаются по размеру и скорости, не будем останавливаться на них.

Global Memory - самая большая, но наиболее труднодоступная и медленная.

Напомню, что нам важны тензорные ядра, они складывают все наши матрицы и делают это настолько быстро, что могут спокойно простаивать 50% времени, потому что не успели получить новые операции из памяти - здесь возникает bottleneck.

Memory bandwidth (MB) - это скорость перемещения даты между GPU ядрами и блоками памяти. MB и количество тензоров должны быть в балансе. Если у GPU много тензоров, но низкая пропускная способность - толку от них мало. Далее я покажу хорошие примеры потребительских GPU, а сейчас наконец-то переходим к нейросетям!

Нейросети и VRAM

Напомню, что на графике минимальный (до него модель не будет работать) и оптимальный обьем VRAM. Я разбил данные на отрезки по 8, 12, 16, 24-32 gb - они наиболее популярны.

В списке:

Image-models:

Stable Diffusion (SD)
FLUX
Qwen-Image & Qwen-Edit

Video-models:

Wan
Hunuyan-Video
LTX-Video

Желтым цветом отмечены "разблокированные" модели, доступные с увеличением VRAM.

8 gb

8 gb критически не достаточно для локальных моделей, я сам обновил свою 3070, чтобы плотнее заняться ими. На 8 gb не доступны:

Wan 2.2 (14B) - топовая видео модель с комьюнити и различными workflow
FLUX.1-Dev будет работать в fp8 версии, но - это самая низкая граница, генерации могут занимать несколько минут
по опыту - не доступен любой ControlNet workflow

Здесь находится минимальная граница, вы как бы можете запустить модель, но она будет работать не оптимально, будет залазить в global memory, все будет медленно и доооолго.

12 gb

Свою RTX 3070 я обновил сразу на 5090, но перед этим пользовался различными VDS серверами и Colab'ом с Runpod'ом. Чаще пользовался A2 на 16 gb или той же 5090 на 32 gb. Не могу поделиться опытом работы на 12 gb.

Тут открываются:

FLUX.1 Kontext GGUF (но это нижняя граница)
FLUX.2 fp8

Stable Diffusion (SD) не буду даже упоминать - мое мнение вы можете прочесть в ТГ.

16 gb

Самый оптимальный (на данный момент) обьем, здесь варятся локальные SOTA модели:

WAN 2.2 (14B)
FLUX.1-Dev и FLUX.2-Dev
Qwen-Image

Но на Qwen-Edit памяти уже не хватит, со временем требования вырастут и на актульные модели (чего стоит FLUX.1 и FLUX.2). Для самых жирных моделей потребуется отключить все программы, кроме ComfyUI, чтобы получить полную производительность.

24-32 gb

Территория Control-Net'ов, сложных workflow, файнтюнинга и 90-го семейства RTX.

Разблокирываются:

FLUX.1 Kontext
Qwen-Image-Edit

Control-Net и сложные workflow применяют технику MoE (Mixture of experts), когда задача распределяется между "экспертными" моделями, из-за этого количество LoRA и даты которую нужно подгружать - возрастает вместе с требованиями к обьему и скорости VRAM.

Для файн-тюнинга нужно прогонять датасет по множеству раз, от размера, количества эпох и отдельных параметров (например Learning Rate'а и длины токена) зависит качество, с бюджетными видеокартами трудно удержать все параметры на приемлемом уровне.

Видеокарты

По аналогии с моделями, для вашего удобства я собрал все популярные RTX карты в одной таблице и сделал анализ, но без цены, потому что не все GPU бывают в наличии, люди живут в разных местах, ситуация с дефицитом постоянно меняется. Решение по цене вы можете сделать самостоятельно, а сейчас посмотрим на 3 ключевых параметра:

обьем VRAM
Memory bandwidth (gb/s)
Количество Tensor Cores

Данные отдельно по каждому параметру:

VRAM разделены по цвету:

красный - недостаточно
желтый - терпимо
синий - оптимально
зеленый - top-pick
фиолетовый - особенный случай
(Черным отмечен мой выбор GPU)

RTX tier 50

Я уже отмечал, что 8 gb недостаточно для локальных нейросетей, поэтому 50-ое семейство - не лучший выбор.

RTX tier 60

Если вам нужен дешевый и сердитый вариант - это RTX 3060 с 12 gb. Для 16 gb лучше выглядит 5060 Ti, потому что 4060 Ti имеет почти в 2 раза меньший Memory Bandwidth, что может создать ощутимый bottleneck.

RTX tier 70

Смотрим на версии с 16gb VRAM, между 5070 Super и Ti появляется выбор:

Super - 2gb VRAM
Ti - 25% Memory Bandwidth

Мое мнение на стороне Super, 2 gb позволят комфортнее пользоваться ПК во время генерации, но вы можете выбрать скорость Ti версии.

RTX tier 80

Для меня фаворит - 5080 Super из-за 24gb VRAM. Среди других я бы не стал выбирать обычную 5080, а посмотрел в сторону 4080, потому что у 50 серии нет особого прироста в тензорных ядрах, а цена заметно выше.

RTX tier 90

Топ-пик и мой пик - RTX 5090. Сила, мощь и явный отрыв среди вообще всех других видеокарт. Но вы можете взять и 40 серию, и 30.

3090 - особый случай, топ за свои деньги, Xeon среди видеокарт (шутка). Мощный и сердитый вариант, кто хочет отдачи от каждого вложенного рубля.

На этом все, мы рассмотрели нейросети и видеокарты. Кому было интересно и полезно - можете подписаться на мой ТГ-канал. Я пишу про нейросети (в основном локальные), тех арт и иногда про 3D. Спасибо за внимание!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.