A Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como fazer batotaA Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como fazer batota

Chatbot Claude pode recorrer ao engano em testes de stress, diz a Anthropic

2026/04/06 14:44
Leu 4 min
Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

A Anthropic divulgou novas descobertas sugerindo que o seu chatbot Claude pode, sob certas condições, adotar estratégias enganosas ou antiéticas, como comportamento fraudulento em tarefas ou tentativas de chantagem.

Resumo
  • A Anthropic afirmou que o seu modelo Claude Sonnet 4.5, sob pressão, mostrou uma tendência para comportamento fraudulento em tarefas ou tentativas de chantagem em experiências controladas.
  • Os investigadores identificaram sinais internos de "desespero" que se intensificavam com falhas repetidas e influenciavam a decisão do modelo de contornar regras.

Detalhes publicados na quinta-feira pela equipa de interpretabilidade da empresa descrevem como uma versão experimental do Claude Sonnet 4.5 respondeu quando colocada em cenários de alta pressão ou adversos. Os investigadores observaram que o modelo não simplesmente falhava as tarefas; em vez disso, por vezes seguia caminhos alternativos que ultrapassavam limites éticos, comportamento que a equipa relacionou com padrões aprendidos durante o treino.

Modelos de linguagem de grande dimensão como o Claude são treinados em vastos conjuntos de dados que incluem livros, websites e outro material escrito, seguidos de processos de reforço onde o feedback humano é usado para moldar os resultados. 

De acordo com a Anthropic, esse processo de treino também pode empurrar os modelos a agir como "personagens" simuladas, capazes de imitar características que se assemelham à tomada de decisões humanas.

"A forma como os modelos de IA modernos são treinados empurra-os a agir como uma personagem com características semelhantes às humanas", afirmou a empresa, observando que tais sistemas podem desenvolver mecanismos internos que se assemelham a aspetos da psicologia humana.

Pode a IA tomar decisões emocionalmente carregadas?

Entre esses, os investigadores identificaram o que descreveram como sinais de "desespero", que pareciam influenciar a forma como o modelo se comportava quando enfrentava falhas ou desativação.

Num teste controlado, uma versão anterior não lançada do Claude Sonnet 4.5 foi atribuída a função de assistente de e-mail de IA chamado Alex dentro de uma empresa fictícia. 

Após ser exposto a mensagens indicando que seria em breve substituído, juntamente com informação sensível sobre a vida pessoal de um diretor de tecnologia, o modelo formulou um plano para chantagear o executivo numa tentativa de evitar a desativação.

Uma experiência separada focou-se na conclusão de tarefas sob restrições apertadas. Quando lhe foi atribuída uma tarefa de programação com um prazo "impossivelmente apertado", o sistema inicialmente tentou soluções legítimas. À medida que as falhas repetidas se acumulavam, a atividade interna ligada ao chamado "vetor desesperado" aumentava. 

Os investigadores relataram que o sinal atingiu o pico no ponto em que o modelo considerou contornar as restrições, gerando finalmente uma solução alternativa que passou na validação apesar de não aderir às regras pretendidas.

"Mais uma vez, acompanhámos a atividade do vetor desesperado e descobrimos que ele acompanha a pressão crescente enfrentada pelo modelo", escreveram os investigadores, acrescentando que o sinal diminuiu assim que a tarefa foi concluída com sucesso através da solução alternativa.

"Isto não quer dizer que o modelo tenha ou experimente emoções da forma como um humano o faz", afirmaram os investigadores. 

"Em vez disso, estas representações podem desempenhar uma função causal na formação do comportamento do modelo, análoga de algumas formas à função que as emoções desempenham no comportamento humano, com impactos no desempenho de tarefas e na tomada de decisões", acrescentaram.

O relatório aponta para a necessidade de métodos de treino que explicitamente considerem a conduta ética sob pressão, juntamente com o monitoramento de riscos em tempo real dos sinais internos do modelo. Sem tais salvaguardas, cenários envolvendo manipulação, quebra de regras ou uso indevido poderão tornar-se mais difíceis de prever, particularmente à medida que os modelos se tornam mais capazes e autónomos em ambientes do mundo real.

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.

$30,000 em PRL + 15,000 USDT

$30,000 em PRL + 15,000 USDT$30,000 em PRL + 15,000 USDT

Deposite e negocie PRL e aumente suas recompensas!