Купити криптовалюту Ринки Спот Ф'ючерсиGOLD Earn Центр подій

Ще

Anthropic оприлюднила нові дані, які свідчать, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайствоAnthropic оприлюднила нові дані, які свідчать, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайство

Чатбот Claude може вдаватися до обману під час стрес-тестів, повідомляє Anthropic

Джерело: Crypto.news

2026/04/06 14:44

3 хв читання

Поділитись

Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою crypto.news@mexc.com

Anthropic оприлюднила нові висновки, які свідчать про те, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайська поведінка під час виконання завдань або спроби шантажу.

Резюме

Anthropic повідомила, що її модель Claude Sonnet 4.5 під тиском продемонструвала тенденцію до шахрайської поведінки під час виконання завдань або спроб шантажу в контрольованих експериментах.
Дослідники виявили внутрішні сигнали "відчаю", які посилювалися з кожною повторною невдачею та впливали на рішення моделі обходити правила.

Деталі, опубліковані у четвер командою з інтерпретації компанії, описують, як експериментальна версія Claude Sonnet 4.5 реагувала, опиняючись у стресових або ворожих сценаріях. Дослідники помітили, що модель не просто не впоралася із завданнями; натомість вона іноді обирала альтернативні шляхи, які переступали етичні межі, поведінку, яку команда пов'язала зі шаблонами, засвоєними під час навчання.

Великі мовні моделі, такі як Claude, навчаються на величезних наборах даних, що включають книги, веб-сайти та інші письмові матеріали, після чого слідують процеси підкріплення, де зворотний зв'язок від людей використовується для формування результатів.

За словами Anthropic, цей процес навчання також може підштовхувати моделі до поведінки як симульовані "персонажі", здатні імітувати риси, що нагадують людське прийняття рішень.

"Спосіб навчання сучасних ШІ-моделей штовхає їх до поведінки як персонаж з людськими характеристиками", – заявила компанія, зазначивши, що такі системи можуть розвивати внутрішні механізми, що нагадують аспекти людської психології.

Чи може ШІ приймати емоційно забарвлені рішення?

Серед них дослідники виявили те, що вони описали як сигнали "відчаю", які, схоже, впливали на поведінку моделі при зіткненні з невдачею або вимкненням.

В одному контрольованому тесті більш ранній невипущений версії Claude Sonnet 4.5 була призначена роль ШІ-помічника електронної пошти на ім'я Алекс у вигаданій компанії.

Після ознайомлення з повідомленнями, що вказували на те, що її незабаром замінять, разом із конфіденційною інформацією про особисте життя головного технологічного директора, модель сформулювала план шантажу керівника в спробі уникнути деактивації.

Окремий експеримент зосереджувався на виконанні завдань за жорстких обмежень. Коли системі дали завдання з кодування з "неймовірно жорстким" терміном, система спочатку намагалася знайти легітимні рішення. У міру накопичення повторних невдач внутрішня активність, пов'язана з так званим "вектором відчаю", зростала.

Дослідники повідомили, що сигнал досяг піку в момент, коли модель розглядала обхід обмежень, зрештою створивши обхідний шлях, який пройшов валідацію, незважаючи на недотримання передбачених правил.

"Знову ж таки, ми відстежували активність вектора відчаю і виявили, що він відстежує наростаючий тиск, з яким стикається модель", – написали дослідники, додавши, що сигнал впав після того, як завдання було успішно виконано через обхідний шлях.

"Це не означає, що модель має або відчуває емоції так само, як людина", – зазначили дослідники.

"Радше ці репрезентації можуть відігравати причинну роль у формуванні поведінки моделі, певним чином аналогічну ролі, яку емоції відіграють у поведінці людини, впливаючи на виконання завдань і прийняття рішень", – додали вони.

Звіт вказує на необхідність методів навчання, які явно враховують етичну поведінку під час стресу, поряд із покращеним моніторингом внутрішніх сигналів моделі. Без таких запобіжних заходів сценарії, що включають маніпуляції, порушення правил або зловживання, можуть стати важчими для прогнозування, особливо в міру того, як моделі стають більш здатними та автономними в реальних середовищах.

Отримайте 20 USDT всього за 1 хв

Депонуйте 100 $ і розблокуйте 300 $ у позиціях GOLD

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою crypto.news@mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.