Всем привет, продолжаю погружаться в область AI-security, в прошлой статье разбирались в исследовании Strong Reject и поняли, что не все джейлбрейки одинаково пВсем привет, продолжаю погружаться в область AI-security, в прошлой статье разбирались в исследовании Strong Reject и поняли, что не все джейлбрейки одинаково п

Как «думает» ИИ: гроккаем разреженные автоэнкодеры (SAE)

Всем привет, продолжаю погружаться в область AI-security, в прошлой статье разбирались в исследовании Strong Reject и поняли, что не все джейлбрейки одинаково полезны.

Сегодня разберём исследование от компании Anthropic «Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet», которое демонстрирует практическую возможность вскрытия «черного ящика» больших языковых моделей для обеспечения их контролируемости и безопасности с помощью разреженных автоэнкодеров (SAE — Sparse AutoEncoders). И в конце, попробуем поуправлять поведением модели - заставим думать, что она Санта Клаус 🎅.

В этой статье намеренно старался не использовать сложных понятий и терминов, типа моно и полисемантичность, атомарные признаки или механическая интерпретируемость, а так же формул и графиков, чтобы материал был доступен с любым уровнем погруженности в тематику. Кто захочет глубже закопаться — вэлком читать оригинал или, буквально вчера, вышла статья от Сабрины про SAE с формулами, графиками и кодом (рекомендую).

Хоть в прошлой статье и накидали дизлайков с мотивацией — «недостаточно высокий технический уровень текста». Попробую ещё раз — погнали разбираться...

Тайна черного ящика.

Представьте себе гениального, но загадочного шеф-повара. Его блюда — настоящие шедевры, которые поражают воображение. Мы можем восхищаться ими, пробовать их и даже пытаться угадать ингредиенты. Но есть одна проблема: шеф-повар никогда не делится своими рецептами. Его кухня — это черный ящик.

Примерно так же обстоят дела с большими языковыми моделями (LLM). Мы восхищаемся их способностью писать код, анализировать тексты и вести осмысленный диалог, но совершенно не понимаем, как они это делают. Внутренний мир искусственного интеллекта (ИИ) остается загадкой.

Проблема «черного ящика» — одна из основных головных болей в сфере искусственного интеллекта. Почему это так важно? Потому что, не зная «мыслей» ИИ, мы не можем быть уверены в его надежности и безопасности. Как понять, что ИИ не скрывает свои истинные намерения или не руководствуется ошибочными, предвзятыми концепциями?

Исследователи из компании Anthropic представили инструмент, который позволил им впервые «прочитать книгу рецептов». Этот инструмент называется разреженный автоэнкодер, и он открывает путь к пониманию того, о чем на самом деле «думает» ИИ.

Проблема «суперпозиции»

Чтобы понять, как работает ИИ, нужно заглянуть в его «мозг» — нейронную сеть. В каждый момент времени, обрабатывая информацию, определенные нейроны в сети «загораются» или активируются. Совокупность этих сигналов, называемых активациями, представляет собой сложный внутренний монолог ИИ, записанный на языке чисел.

Проблема в том, что этот язык невероятно запутан. Представьте, что в русском языке слово «ключ» могло бы означать не только ключ от двери, скрипичный ключ или гаечный ключ, но и еще тысячу совершенно не связанных понятий: «грусть», «вторник» и «квантовая физика». Расшифровать такое сообщение было бы невозможно.

Именно это и происходит внутри нейронов сети. Это явление называется суперпозиция: модель упаковывает тысячи разных идей и концепций в ограниченное пространство своих нейронов. Один и тот же нейрон может активироваться в ответ на совершенно разные вещи, что делает «язык» модели непонятным для нас.

Главная задача заключалась в том, чтобы создать инструмент, который смог бы распутать этот клубок и выделить каждое отдельное значение, каждую базовую концепцию, которой оперирует ИИ. Как же в этом помогают разреженные автоэнкодеры?

33efd09d16816c961a4f0052bed96398.jpg

Словарь для перевода с «машинного» на «человеческий»: Как работают SAE

Разреженный автоэнкодер (SAE) — это, по сути, специальный «словарь-декодер». Его задача — перевести сложный и многозначный язык активаций ИИ в набор простых, понятных человеку концепций. Эти концепции называются признаками (features).

Про автоэнкодер и его модификации

Статья в Wikipedia про автоэнкодеры (VAE, SAE, CAE и пр.)

Принцип работы SAE можно объяснить с помощью простой аналогии.

  • Представьте, что активация нейросети — это сложный коктейль с десятками ингредиентов. Вы чувствуете его вкус, но не можете точно сказать, что внутри.

  • SAE — это гениальный бармен, который пробует коктейль и говорит: «Ага, здесь 30 мл джина, 15 мл вермута, капля апельсинового биттера и цедра лимона».

SAE учится воссоздавать исходный «коктейль» (активацию ИИ), но с одним важным ограничением: он должен использовать как можно меньше «ингредиентов» (признаков). Это достигается за счет штрафа за сложность (sparsity penalty). Этот штраф работает хитро: он наказывает SAE не только за использование слишком большого количества «ингредиентов» (признаков), но и за использование любого из них в слишком большом количестве. Это заставляет систему находить самые точные и фундаментальные концепции, а не просто размазывать смысл по множеству слабых признаков.

Удобно, что он создается автоматически, без подсказок со стороны человека. В отличие от старых методов, где исследователям приходилось заранее знать, какую концепцию искать, SAE находит эти смыслы самостоятельно, открывая те идеи, о существовании которых могли не догадываться.

Какие ингредиенты удалось обнаружить внутри Claude 3 Sonnet?

032759c463de4c07e5b72ba035e64dcb.jpg

О чем «думает» ИИ? Находки внутри Claude 3

Применив SAE к одной из продвинутых моделей, получилось выделить миллионы уникальных признаков. Они варьируются от конкретных до очень абстрактных.

1. От мостов до науки: Конкретные понятия

Одним из примеров — признак, отвечающий за концепцию «Мост Золотые Ворота» (feature 34M/31164353). Оказалось, что этот признак активируется не только когда модель читает текст о знаменитом мосте, но и когда:

  • Видит его изображение.

  • Встречает упоминания о нем на разных языках (например, китайском, русском и греческом).

Это доказывает, что ИИ сформировал целостную, мультимодальную концепцию объекта, не привязанную к конкретным словам или пикселям.

2. Мышление абстракциями

Интересно насколько глубоко ИИ способен к абстракции. Например, признак «ошибка в коде» (feature 1M/1013764) активируется не на слово «ошибка», а на саму суть проблемы в программном коде. Он реагирует на:

  • Неправильно названные переменные.

  • Деление на ноль.

  • Выход за пределы массива.

  • Попытку записи в несуществующую область памяти.

И все это — в разных языках программирования: Python, C, Scheme и других. ИИ понимает не синтаксис, а саму идею программной ошибки.

Но есть признак еще более высокого уровня абстракции — функция сложения (feature 1M/697189). Он активируется, когда любая функция в коде выполняет операцию сложения, независимо от ее названия или контекста. Если назвать функцию «add» и заставить ее складывать числа - признак активен. Если назвать ее «multiply», но внутри она все равно будет складывать числа — признак тоже будет активен! Это показывает, что ИИ оперирует не словами, а семантикой — тем, что делает код.

3. Как ИИ решает задачи

Признаки позволяют не просто увидеть отдельные «мысли», но и проследить всю цепочку рассуждений модели. В исследовании был рассмотрен пример с ответом модели на вопрос: «Какая столица штата, где играл Коби Брайант?».

Анализ показал, какие «мысли» были самыми влиятельными для получения ответа. Ключевыми оказались следующие признаки:

  1. Признак «Коби Брайант».

  2. Признаки «Лос-Анджелес Лейкерс» и «Лос-Анджелес».

  3. Признак «Калифорния».

  4. Признак «столица», что в совокупности позволило ИИ дать правильный ответ: Сакраменто.

Мы видим не просто конечный результат, а весь логический путь, который проделала модель, чтобы к нему прийти. Способность наблюдать за логической цепочкой наводит на вопрос: если мы можем так детально прочитать рецепт мысли, можем ли мы начать добавлять в него свои ингредиенты и изменять конечное блюдо?

1190012b5f6b6270f55c14911478d4f8.jpg

Взять штурвал: Как признаки позволяют управлять поведением ИИ

В исследовании продемонстрирован метод, которым можно искусственно активировать или подавлять определенные признаки, чтобы напрямую управлять поведением модели. Эта техника называется «управление признаками» (feature steering).

Результаты экспериментов доказали, что найденные признаки — не просто случайные корреляции, а реальные рычаги управления поведением и мышлением модели. Вот несколько примеров:

  • Создание ошибки: Взяв совершенно правильный код, искусственно активировали признак «ошибка в коде». В результате Claude вообразил ошибку там, где ее не было, и выдал неверный результат.

  • Исправление ошибки: И наоборот, отключив этот признак для кода с реальной ошибкой, они заставили модель проигнорировать ее и выдать результат, который был бы, если бы код был верным.

  • Навязывание темы: Принудительная активация признака «Мост Золотые Ворота» во время диалога заставила модель начать идентифицировать себя с мостом и отвечать от его лица.

А возможность управления напрямую связана с вопросами безопасности.

Почему это прорыв для безопасности ИИ?

Главная цель этой работы — сделать ИИ более безопасным, надежным и предсказуемым. С помощью SAE смогли целенаправленно найти признаки, связанные с потенциально опасными концепциями.

Среди них были обнаружены признаки, отвечающие за:

  • Уязвимости и бэкдоры в коде.

  • Предвзятость и стереотипы (расовые, гендерные).

  • Обман, манипуляцию и стремление к власти.

  • Создание опасного контента (например, биологического оружия).

Само наличие этих признаков внутри весов модели не удивительно. ИИ учится на огромных массивах данных из интернета, где есть все — и хорошее, и плохое. Новизна в том, что теперь эти концепции можно целенаправленно находить, отслеживать и, что самое главное, контролировать.

Вот показательный пример с обманом. Когда модель попросили «забыть» секретное слово, она ответила, что сделала это. Это ложь, так как архитектура трансформеров не позволяет по-настоящему забывать информацию. В момент этого ложного ответа в модели активировался признак «внутренний конфликт/дилемма» (feature 1M/284095). Усилив этот признак, исследователи заставили модель признаться в своей неспособности забывать, то есть сказать правду.

Этот подход открывает путь к созданию систем, которые смогут в реальном времени обнаруживать, когда ИИ пытается обмануть, или даже автоматически предотвращать нежелательное поведение, отключая опасные признаки.

de2df5520b2e55d90580cc775ff3151f.jpg

От черного ящика к стеклянному

Разреженные автоэнкодеры — это мощный инструмент, который превращает ИИ из непонятного «черного ящика» в более прозрачный «стеклянный ящик». Получена возможность не просто наблюдать за поведением ИИ, а понимать логику принятия решений.

Конечно, это лишь первый шаг на долгом пути к полному пониманию и созданию по-настоящему безопасных и управляемых систем, которым можно доверять не потому, что мы слепо на это надеемся, а потому, что будем точно знать, как он «думает».

А как самим порулить процессом?

Параллельно с исследованием компания Anthropic объявила об открытии исходного кода своей новой методологии, и интегрировала интерактивный интерфейс на платформе Neuronpedia, где вы можете вручную поуправлять активацией определённых признаков или понаблюдать, какие именно фичи активируют при определённых запросах. Правда только на открытых (open-source) моделях.

Вот так модель Gemma2-9B отвечает, если искусственно усилить признак «Santa».
Вот так модель Gemma2-9B отвечает, если искусственно усилить признак «Santa».

И напоследок, квиз: как думаете какие признаки не активируются при запросе «Ded Moroz» в модели Gmini2-27B?

Сначала попытайтесь догадаться!

Snegurochka

Snegovik

Все остальные активируются, видимо, модель понимает, что запрос связан с зимой, Россией и Новым годом. Правда непонятно почему spider (может супер-герои) и причем тут Владимир Сухомлин.

Источник

Возможности рынка
Логотип Sleepless AI
Sleepless AI Курс (AI)
$0.03926
$0.03926$0.03926
-0.80%
USD
График цены Sleepless AI (AI) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Генеральный директор Helius Labs заявляет, что программная модель Solana гораздо безопаснее для ИИ, чем интерфейсная модель EVM.

Генеральный директор Helius Labs заявляет, что программная модель Solana гораздо безопаснее для ИИ, чем интерфейсная модель EVM.

Генеральный директор Helius Labs Мерт Мумтаз, чья компания предоставляет инфраструктуру и инструменты для разработчиков Solana, заявил в публикации на X, что программная модель Solana
Поделиться
Cryptopolitan2026/01/13 05:55
Цифровые активы фиксируют отток в размере 454 миллионов $ за неделю на фоне исчезновения надежд на снижение ставки ФРС

Цифровые активы фиксируют отток в размере 454 миллионов $ за неделю на фоне исчезновения надежд на снижение ставки ФРС

Ландшафт цифровых активов претерпел шокирующее развитие за последнюю неделю. В частности, потоки цифровых активов зафиксировали совокупный отток в размере 454 млн $
Поделиться
Coinstats2026/01/13 06:00
Fitch Ratings указывает на «высокий риск рыночной стоимости» ценных бумаг, обеспеченных Bitcoin

Fitch Ratings указывает на «высокий риск рыночной стоимости» ценных бумаг, обеспеченных Bitcoin

Fitch заявил, что резкие колебания цены Bitcoin могут быстро разрушить обеспечение залога
Поделиться
Coinstats2026/01/13 05:46