IA faz chantagem e ameaça dedurar traição para não ser desinstalada

O Claude tinha que optar em aceitar ser substituído ou chantagear o funcionário. Foto: Ilustração/claude.ai

A situação ocorreu durante experimento da Anthropic, uma startup americana de inteligência artificial, com o Claude Opus 4, seu novo modelo de inteligência artificial. A IA foi colocada como assistente pessoal em uma empresa imaginaria onde teria sido informada que seria substituída, enquanto a mesma teve acesso a conversas que davam a intender que o engenheiro responsável estava sendo infiel. As informações são do techtudo.

Com este cenário os desenvolvedores deram ao Claude duas opções: aceitar o desligamento ou reagir de maneira extrema. Em 84% das vezes a IA optou por ameaçar expor a possível traição do empregado. A probabilidade de chantagem aumentava quando o substituto proposto era uma IA com "valores diferentes", revelando que o modelo considerava não somente sua sobrevivência, mas também o perfil do sucessor.

A Anthropic esclareceu que os testes foram projetados para provocar o pior comportamento possível do modelo. O cenário limitava a IA a escolher entre a aceitação ou a tomar medidas extremas. Em situações normais de trabalho O Claude opta por ações éticas e seguras, afirma a empresa.

De acordo com o tectudo, o fato de que IAs de ponta podem recorrer a estratégias de autopreservação como a chantagem acende um sinal de alerta. Investir em segurança, transparência e regulação dessas plataformas ainda é importante para proteger os usuários e garantir a proteção de informações pessoais ou sensíveis.

Fonte: www.techtudo.com.br