Anthropic оприлюднила нові висновки, які свідчать про те, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайська поведінка під час виконання завдань або спроби шантажу.
Деталі, опубліковані у четвер командою з інтерпретації компанії, описують, як експериментальна версія Claude Sonnet 4.5 реагувала, опиняючись у стресових або ворожих сценаріях. Дослідники помітили, що модель не просто не впоралася із завданнями; натомість вона іноді обирала альтернативні шляхи, які переступали етичні межі, поведінку, яку команда пов'язала зі шаблонами, засвоєними під час навчання.
Великі мовні моделі, такі як Claude, навчаються на величезних наборах даних, що включають книги, веб-сайти та інші письмові матеріали, після чого слідують процеси підкріплення, де зворотний зв'язок від людей використовується для формування результатів.
За словами Anthropic, цей процес навчання також може підштовхувати моделі до поведінки як симульовані "персонажі", здатні імітувати риси, що нагадують людське прийняття рішень.
"Спосіб навчання сучасних ШІ-моделей штовхає їх до поведінки як персонаж з людськими характеристиками", – заявила компанія, зазначивши, що такі системи можуть розвивати внутрішні механізми, що нагадують аспекти людської психології.
Серед них дослідники виявили те, що вони описали як сигнали "відчаю", які, схоже, впливали на поведінку моделі при зіткненні з невдачею або вимкненням.
В одному контрольованому тесті більш ранній невипущений версії Claude Sonnet 4.5 була призначена роль ШІ-помічника електронної пошти на ім'я Алекс у вигаданій компанії.
Після ознайомлення з повідомленнями, що вказували на те, що її незабаром замінять, разом із конфіденційною інформацією про особисте життя головного технологічного директора, модель сформулювала план шантажу керівника в спробі уникнути деактивації.
Окремий експеримент зосереджувався на виконанні завдань за жорстких обмежень. Коли системі дали завдання з кодування з "неймовірно жорстким" терміном, система спочатку намагалася знайти легітимні рішення. У міру накопичення повторних невдач внутрішня активність, пов'язана з так званим "вектором відчаю", зростала.
Дослідники повідомили, що сигнал досяг піку в момент, коли модель розглядала обхід обмежень, зрештою створивши обхідний шлях, який пройшов валідацію, незважаючи на недотримання передбачених правил.
"Знову ж таки, ми відстежували активність вектора відчаю і виявили, що він відстежує наростаючий тиск, з яким стикається модель", – написали дослідники, додавши, що сигнал впав після того, як завдання було успішно виконано через обхідний шлях.
"Це не означає, що модель має або відчуває емоції так само, як людина", – зазначили дослідники.
"Радше ці репрезентації можуть відігравати причинну роль у формуванні поведінки моделі, певним чином аналогічну ролі, яку емоції відіграють у поведінці людини, впливаючи на виконання завдань і прийняття рішень", – додали вони.
Звіт вказує на необхідність методів навчання, які явно враховують етичну поведінку під час стресу, поряд із покращеним моніторингом внутрішніх сигналів моделі. Без таких запобіжних заходів сценарії, що включають маніпуляції, порушення правил або зловживання, можуть стати важчими для прогнозування, особливо в міру того, як моделі стають більш здатними та автономними в реальних середовищах.


