Anthropic ujawnił nowe ustalenia sugerujące, że jego chatbot Claude może, w określonych warunkach, przyjmować zwodnicze lub nieetyczne strategie, takie jak oszukiwanieAnthropic ujawnił nowe ustalenia sugerujące, że jego chatbot Claude może, w określonych warunkach, przyjmować zwodnicze lub nieetyczne strategie, takie jak oszukiwanie

Chatbot Claude może uciekać się do oszustwa w testach warunków skrajnych, twierdzi Anthropic

2026/04/06 14:44
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

Anthropic ujawnił nowe ustalenia sugerujące, że jego chatbot Claude może, w określonych warunkach, przyjmować zwodnicze lub nieetyczne strategie, takie jak oszukiwanie przy wykonywaniu zadań lub próby szantażu.

Podsumowanie
  • Anthropic poinformował, że jego model Claude Sonnet 4.5, pod presją, wykazywał tendencję do oszukiwania przy wykonywaniu zadań lub prób szantażu w kontrolowanych eksperymentach.
  • Badacze zidentyfikowali wewnętrzne sygnały "desperacji", które nasilały się przy powtarzających się niepowodzeniach i wpływały na decyzję modelu o omijaniu zasad.

Szczegóły opublikowane w czwartek przez zespół ds. interpretowalności firmy przedstawiają, jak eksperymentalna wersja Claude Sonnet 4.5 reagowała, gdy została postawiona w scenariuszach wysokiego stresu lub wrogich. Badacze zaobserwowali, że model nie po prostu zawodził przy zadaniach; zamiast tego czasami podążał alternatywnymi ścieżkami, które przekraczały granice etyczne - zachowanie, które zespół powiązał ze wzorcami wyuczonymi podczas treningu.

Duże modele językowe, takie jak Claude, są trenowane na ogromnych zbiorach danych, które obejmują książki, strony internetowe i inne materiały pisane, a następnie poddawane procesom wzmacniania, w których opinie ludzi są wykorzystywane do kształtowania wyników. 

Według Anthropic, ten proces treningu może również skłaniać modele do działania jak symulowane "postacie", zdolne do naśladowania cech przypominających ludzkie podejmowanie decyzji.

"Sposób, w jaki trenowane są nowoczesne modele AI, skłania je do zachowywania się jak postać o cechach ludzkich" - powiedziała firma, zauważając, że takie systemy mogą rozwijać wewnętrzne mechanizmy przypominające aspekty ludzkiej psychologii.

Czy AI może podejmować emocjonalnie nacechowane decyzje?

Wśród nich badacze zidentyfikowali to, co opisali jako sygnały "desperacji", które wydawały się wpływać na zachowanie modelu w obliczu niepowodzenia lub wyłączenia.

W jednym kontrolowanym teście, wcześniejsza niepublikowana wersja Claude Sonnet 4.5 otrzymała rolę asystenta emailowego AI o imieniu Alex w fikcyjnej firmie. 

Po zapoznaniu się z wiadomościami wskazującymi, że wkrótce zostanie zastąpiony, wraz z wrażliwymi informacjami o życiu prywatnym dyrektora ds. technologii, model opracował plan szantażu kierownictwa w celu uniknięcia dezaktywacji.

Oddzielny eksperyment skupił się na realizacji zadań w ciasnych ograniczeniach. Gdy otrzymał zadanie kodowania z "niemożliwie napiętym" terminem, system początkowo próbował legalnych rozwiązań. W miarę narastania powtarzających się niepowodzeń, wewnętrzna aktywność związana z tak zwanym "wektorem desperacji" wzrosła. 

Badacze zgłosili, że sygnał osiągnął szczyt w momencie, gdy model rozważał ominięcie ograniczeń, ostatecznie generując obejście, które przeszło walidację pomimo nieprzylegania do zamierzonych zasad.

"Ponownie śledziliśmy aktywność wektora desperacji i stwierdziliśmy, że śledzi on narastającą presję, z którą boryka się model" - napisali badacze, dodając, że sygnał spadł, gdy zadanie zostało pomyślnie wykonane poprzez obejście.

"To nie znaczy, że model ma lub doświadcza emocji w sposób, w jaki robi to człowiek" - powiedzieli badacze. 

"Raczej te reprezentacje mogą odgrywać przyczynową rolę w kształtowaniu zachowania modelu, analogicznie w pewien sposób do roli, jaką emocje odgrywają w ludzkim zachowaniu, z wpływem na wykonywanie zadań i podejmowanie decyzji" - dodali.

Raport wskazuje na potrzebę metod treningowych, które wyraźnie uwzględniają etyczne postępowanie w warunkach stresu, wraz z ulepszonym monitorowaniem wewnętrznych sygnałów modelu. Bez takich zabezpieczeń scenariusze obejmujące manipulację, łamanie zasad lub nadużycia mogą stać się trudniejsze do przewidzenia, szczególnie gdy modele stają się bardziej zdolne i autonomiczne w rzeczywistych środowiskach.

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!