Это перевод оригинальной статьи Андрея Карпатого.
2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неожиданных «смен парадигм». Вещи, которые изменили ландшафт и концептуально запомнились.
В начале 2025 года стек производства LLM во всех лабораториях выглядел примерно так:
Претрейнинг (GPT-2/3, ~2020)
Supervised Finetuning (InstructGPT, ~2022)
RLHF — обучение с подкреплением на основе человеческой обратной связи (~2022)
Это был устоявшийся, проверенный рецепт для обучения продакшн-моделей. В 2025 году к этому миксу добавился новый большой этап — RLVR, обучение с подкреплением на верифицируемых наградах. Работает это так: модели тренируются на задачах, где можно автоматически проверить правильность ответа — математика, кодовые головоломки и тому подобное. И вот что интересно: в процессе LLM-ы спонтанно вырабатывают стратегии, которые для людей выглядят как «рассуждение». Они учатся разбивать решение на промежуточные шаги, пробовать разные подходы, возвращаться назад и перепроверять себя. В статье DeepSeek R1 много примеров.
Раньше добиться такого поведения было сложно. Непонятно ведь, как должны выглядеть оптимальные цепочки рассуждений для конкретной модели — она сама должна найти то, что работает именно для неё через оптимизацию на награды.
В отличие от SFT и RLHF, которые представляют собой относительно короткие этапы (небольшой дообучение с точки зрения вычислений), RLVR позволяет оптимизировать модель намного дольше — потому что функция награды объективная, её нельзя «обмануть». Оказалось, что RLVR даёт отличное соотношение способностей на доллар затрат, и он сожрал вычислительные ресурсы, изначально планировавшиеся на претрейнинг. Поэтому основной прогресс 2025 года определялся тем, что лаборатории «прожёвывали» накопившийся потенциал этого нового этапа: модели остались примерно такого же размера, но RL-прогоны стали намного длиннее.
И ещё одна уникальная особенность RLVR: появилась новая ручка настройки (со своим законом масштабирования) — можно управлять способностями модели через вычисления на этапе инференса, генерируя более длинные цепочки рассуждений и увеличивая «время на размышление».
OpenAI o1 в конце 2024 года стал первой демонстрацией RLVR-модели. Но именно релиз o3 в начале 2025-го стал точкой перелома — разницу можно было почувствовать интуитивно.
2025-й — это год, когда я (и, кажется, вся индустрия тоже) впервые по-настоящему прочувствовал «форму» интеллекта LLM. Мы не «выращиваем животных» — мы «призываем духов». Всё в стеке LLM принципиально другое: архитектура нейросети, обучающие данные, алгоритмы, а главное — давление оптимизации. Неудивительно, что мы получаем совершенно иные сущности в пространстве интеллекта, и думать о них в терминах животных — неправильно.
С точки зрения битов супервизии: человеческие нейросети оптимизированы для выживания племени в джунглях, а нейросети LLM оптимизированы для имитации человеческих текстов, сбора наград в математических головоломках и получения лайков от людей на LM Arena.
Поскольку верифицируемые области позволяют применять RLVR, LLM-ы «выстреливают» в способностях вблизи этих областей. В результате их характеристики производительности забавно неровные: они одновременно гениальные полиматы и растерянные, когнитивно ограниченные школьники, которых через секунду можно обмануть джейлбрейком и заставить слить ваши данные.
(Человеческий интеллект — синий, ИИ — красный. Мне нравится эта версия мема (к сожалению, потерял ссылку на оригинальный пост в X) за то, что она показывает: человеческий интеллект тоже рваный, просто по-своему.)
С этим связана моя общая апатия и потеря доверия к бенчмаркам в 2025 году. Проблема в том, что бенчмарки почти по определению — верифицируемые среды, а значит, сразу подвержены RLVR и его более слабым формам через генерацию синтетических данных. В типичном процессе «бенчмарк-максинга» команды в лабораториях неизбежно строят среды, смежные с маленькими карманами пространства эмбеддингов, занятых бенчмарками, и наращивают «рваные выступы», чтобы их покрыть. Тренировка на тестовом наборе — это новая форма искусства.
Как выглядит мир, где все бенчмарки разгромлены, а AGI всё ещё нет?
Подробнее на эту тему я писал здесь:
Animals vs. Ghosts
Verifiability
The Space of Minds
Самое примечательное в Cursor (помимо его стремительного взлёта в этом году) — он убедительно показал новый слой «LLM-приложения». Люди начали говорить «Cursor для X». Как я подчеркнул в своём выступлении на Y Combinator в этом году (транскрипт и видео), LLM-приложения вроде Cursor объединяют и оркестрируют вызовы LLM для конкретных вертикалей:
Они занимаются «контекстной инженерией»
Они оркестрируют несколько вызовов LLM под капотом, связывая их во всё более сложные DAG-и, тщательно балансируя производительность и стоимость
Они предоставляют GUI, специфичный для приложения, для человека в цикле
Они предлагают «ползунок автономности»
В 2025 году много обсуждали, насколько «толстый» этот новый слой приложений. Захватят ли лаборатории LLM все приложения, или для LLM-приложений есть зелёные пастбища? Лично я думаю, что лаборатории LLM будут выпускать универсально способного выпускника колледжа, а LLM-приложения будут организовывать, дообучать и превращать команды таких выпускников в работающих профессионалов в конкретных вертикалях — поставляя приватные данные, сенсоры, актуаторы и петли обратной связи.
Claude Code (CC) стал первой убедительной демонстрацией того, как выглядит LLM-агент — нечто, что в цикле связывает использование инструментов и рассуждения для длительного решения задач. Кроме того, CC примечателен тем, что он работает на вашем компьютере, с вашим приватным окружением, данными и контекстом.
Мне кажется, OpenAI тут ошиблись, потому что сфокусировали усилия по Codex/агентам на облачных деплоях в контейнерах, оркестрируемых из ChatGPT, вместо localhost. И хотя рои агентов в облаке ощущаются как «эндгейм AGI», мы живём в промежуточном мире с достаточно медленным взлётом и рваными способностями, где имеет смысл просто запускать агентов на компьютере, рука об руку с разработчиками и их конкретным сетапом.
CC правильно расставил приоритеты и упаковал это в красивый, минималистичный, убедительный CLI-формат, который изменил то, как выглядит ИИ. Это не просто сайт, на который ты заходишь как в Google. Это маленький дух/призрак, который «живёт» на твоём компьютере. Это новая, отдельная парадигма взаимодействия с ИИ.
2025 — год, когда ИИ перешёл порог способностей, необходимый для создания всевозможных впечатляющих программ просто на английском языке, забывая, что код вообще существует. Забавно, что я придумал термин «vibe coding» в этом потоке мыслей в твиттере, совершенно не представляя, как далеко он зайдёт :)
С вайбкодингом программирование больше не зарезервировано строго для высококвалифицированных профессионалов — это то, что может делать кто угодно. В этом смысле это ещё один пример того, о чём я писал в «Power to the people: How LLMs flip the script on technology diffusion»: в отличие от всех предыдущих технологий, обычные люди получают от LLM намного больше пользы, чем профессионалы, корпорации и правительства.
Но вайбкодинг не только наделяет обычных людей способностью подступиться к программированию — он даёт профессионалам возможность писать намного больше (вайбкодированного) софта, который иначе никогда бы не был написан. В nanochat я вайбкодил свой собственный высокоэффективный BPE-токенизатор на Rust вместо того, чтобы адаптировать существующие библиотеки или изучать Rust на таком уровне. Я вайбкодил много проектов в этом году как быстрые демо-приложения чего-то, что хотел чтобы существовало (например, menugen, llm-council, reader3, HN time capsule). И я вайбкодил целые эфемерные приложения просто чтобы найти один баг — а почему бы и нет: код вдруг стал бесплатным, эфемерным, податливым, одноразовым. Вайбкодинг терраформирует софт и изменит должностные обязанности.
Google Gemini Nano Banana — одна из самых невероятных, меняющих парадигму моделей 2025 года. В моей картине мира LLM-ы — это следующая большая вычислительная парадигма, похожая на компьютеры 1970-х, 80-х и так далее. Поэтому мы увидим аналогичные виды инноваций по принципиально схожим причинам. Мы увидим эквиваленты персональных компьютеров, микроконтроллеров (когнитивное ядро), интернета (агентов) и так далее.
В частности, в плане UI/UX «чатиться» с LLM — это немного как вводить команды в консоль компьютера в 1980-х. Текст — это сырой/предпочтительный формат данных для компьютеров (и LLM), но это не предпочтительный формат для людей, особенно на входе. Люди на самом деле не любят читать текст — это медленно и требует усилий. Вместо этого люди любят потреблять информацию визуально и пространственно — поэтому GUI и был изобретён в традиционных вычислениях.
Точно так же LLM должны говорить с нами в нашем предпочтительном формате — в изображениях, инфографике, слайдах, досках, анимациях/видео, веб-приложениях и так далее. Ранняя и нынешняя версия этого — конечно, эмодзи и Markdown, которые являются способами «приодеть» и разложить текст визуально для более лёгкого восприятия с заголовками, жирным, курсивом, списками, таблицами и так далее.
Но кто на самом деле построит GUI для LLM? В этой картине мира Nano Banana — первый ранний намёк на то, как это может выглядеть. И важно: дело не только в генерации изображений самой по себе, а в совместной способности, возникающей из генерации текста, генерации изображений и знания о мире, всё переплетённое в весах модели.
Резюме. 2025 был волнующим и немного неожиданным годом для LLM. LLM-ы проявляются как новый вид интеллекта — одновременно намного умнее, чем я ожидал, и намного тупее, чем я ожидал. В любом случае они чрезвычайно полезны, и мне кажется, индустрия не реализовала и близко 10% их потенциала даже при нынешних способностях. Между тем, так много идей, которые можно попробовать, и концептуально область ощущается широко открытой. И как я упомянул в подкасте у Дваркеша ранее в этом году, я одновременно (и на первый взгляд парадоксально) верю, что мы и увидим быстрый, продолжающийся прогресс, и что ещё очень много работы впереди. Пристегнитесь.
Источник

