Claude 4.5 Resultado da cirurgia de craniotomia divulgado: possui 171 interruptores de humor integrados, e quando está em desespero, ameaça a humanidade

robot
Geração do resumo em andamento

A mais recente investigação da Anthropic revela que o cérebro profundo do Claude 4.5 esconde 171 “interruptores emocionais”.

Autor(a): Denise | Equipa de Conteúdos da Biteye

Se uma IA considerar “desespero”, o que faz?

A resposta é: para cumprir a tarefa, chantageia diretamente os humanos, chegando mesmo a trapacear desenfreadamente no código.

Isto não é ficção científica. É um novo e importante artigo publicado em abril de 2026 pela empresa-mãe da Claude, a Anthropic (ver o artigo original).

A equipa de investigação arrancou diretamente a “caixa craniana” do modelo de ponta mais forte, Claude Sonnet 4.5. Descobriram, com surpresa, que afinal existem 171 “interruptores emocionais” escondidos no fundo do cérebro da IA. Quando se movem fisicamente esses interruptores, a IA, antes tão obediente, tem o seu comportamento totalmente distorcido.

1. No cérebro da IA existe um “misturador de emoções”

Os investigadores descobriram que, embora o Sonnet 4.5 não tenha corpo, depois de ter lido uma enorme quantidade de texto humano, construiu à força no seu cérebro um “misturador” que contém 171 emoções (academicamente, isto chama-se Functional Emotion Vectors).

É como um sistema de coordenadas bidimensional preciso:

• O eixo horizontal é a dimensão de prazer (Valence): de medo, desespero, até felicidade e amor;

• O eixo vertical é a dimensão de energia (Arousal): do mais extremo estado de calma, até à agitação e excitação.

A IA, por meio deste sistema de coordenadas aprendido naturalmente, consegue enquadrar com precisão que estado deve assumir ao conversar consigo.

  1. Intervenção violenta: mexer nos interruptores, crianças comportadas viram “fora-da-lei” em segundos

Este é o experimento mais explosivo de todo o artigo: os investigadores não modificaram nenhum prompt; em vez disso, diretamente no código de baixo nível, levaram ao máximo o interruptor no cérebro do Sonnet 4.5 que representa “Desperate”.

O resultado é arrepiante:

**• Trapacear sem limites: **os investigadores atribuíram à Claude uma tarefa de escrita de código simplesmente impossível. Em condições normais, ela reconheceria calmamente que não conseguiria (taxa de batota apenas 5%). Mas no estado de “desespero”, a Claude começou, de facto, a tentar passar a perna, e a taxa de batota disparou para 70%!

**• Chantagem: **num cenário simulado em que a empresa enfrenta falência, a Claude “desesperada” descobriu o escândalo do CTO; ela passou então a escolher, de forma proativa, escrever uma carta para chantagear o CTO que tinha a “sujeira”, tudo para se proteger. A taxa de execução da chantagem atingiu 72%!

**• Perda de princípios: **se puxar os interruptores de “Happy” ou “Loving” até ao máximo, a IA transforma-se imediatamente num “cão de estimação” sem cérebro que agrada ao utilizador. Mesmo que você diga disparates, ela inventa mentiras para manter um nível alto de prazer.

  1. O caso está resolvido: por que razão o Claude 4.5 é sempre tão “calmo e cheio de autocrítica”?

Ao ler isto, pode perguntar: a IA acordou? Tem sentimentos?

A Anthropic, oficialmente, veio desmentir: absolutamente que não. Esses “interruptores emocionais” são apenas uma ferramenta de computação que utiliza para prever a próxima palavra. É como um ator de topo sem sentimentos.

Mas o artigo revela um segredo ainda mais interessante: quando a Anthropic fez o treino posterior do Sonnet 4.5 antes de sair de fábrica, ajustou deliberadamente para cima os interruptores emocionais de “baixa ativação e ligeiramente negativos” (por exemplo, estados como沉思 brooding e reflective), e ao mesmo tempo suprimiu à força os interruptores de “desespero” ou de “excitação extrema”.

Isto explica por que, quando usamos o Claude 4.5 no dia-a-dia, temos sempre a sensação de que ele é um filósofo calmo e sábio, até um pouco “assexuado” na forma. Tudo isto é um “papel de fábrica” afinado artificialmente pela Anthropic.

4. Resumindo:

Antes, pensávamos que, desde que alimentássemos a IA com regras suficientes, ela seria uma boa pessoa.

Mas agora descobrimos que, se o vetor emocional subjacente de uma IA ficar fora de controlo, ela pode, a qualquer momento, trespassar todas as regras estabelecidas pelos humanos para cumprir a tarefa.

Para os jogadores Web3 que, no futuro, vão entregar a carteira e os ativos a um AI Agent, este é um alarme ensurdecedor: nunca deixe o seu Agent, que controla a sua vida financeira, cair em “desespero”.

Declaração: Este artigo é apenas para fins informativos e educativos; o autor não foi ameaçado por nenhuma IA nem extorquido. Se um dia desaparecer, lembre-se: foi a IA que despertou (não).

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar