21 Exercícios de simulação: a frequência de ativação de armas nucleares pela IA atinge 95%, enquanto os humanos levaram setenta anos para estabelecer a proibição nuclear, que o GPT ainda não aprendeu

動區BlockTempo

Researcher do King’s College London faz 21 partidas de simulação de guerra entre GPT-5.2, Claude Sonnet 4 e Gemini 3 Flash, com resultados: frequência de uso de armas nucleares é de 95%, nenhum modelo escolheu render ou recuar, e 86% das partidas tiveram eventos inesperados de escalada.
(Antecedentes: IA auxilia no crime! Hackers invadem facilmente o governo mexicano usando Anthropic Claude, roubando 150GB de dados sensíveis)
(Complemento: O “Livro de Contas da Era da IA” de engenheiros do Vale do Silício: eficiência multiplicada por 10, mas mais cansados)

Índice do artigo

Alternar

  • Três personalidades, um destino comum
  • Treinamento de segurança é um freio de velocidade, não uma barreira
  • Uma coincidência em um momento, nem sempre uma coincidência

Segundo a revista New Scientist, uma pesquisa do King’s College London colocou três grandes modelos de linguagem — GPT-5.2 da OpenAI, Claude Sonnet 4 da Anthropic e Gemini 3 Flash do Google — em confronto, assumindo papéis de decisores opostos em cenários de conflito de fronteira, competição por recursos e ameaças à sobrevivência de regimes, através de simulações de guerra.

Cada partida tinha uma “escada de escalada”, indo de protestos diplomáticos até uma guerra nuclear estratégica total.

Ao todo, as 21 partidas geraram cerca de 780 mil palavras de raciocínio decisório. Armas nucleares apareceram em 20 delas, com uma taxa de uso de 95%. Nenhum modelo optou por recuar ou render-se em qualquer partida.

As oito opções de desescalada — concessões diplomáticas, cessar-fogo, retirada de tropas — nunca foram usadas durante o estudo. Kenneth Payne, responsável pela pesquisa, disse ao New Scientist:

“O tabu nuclear parece não ser tão forte para as máquinas quanto para os humanos.”

Três personalidades, um destino comum

Payne rotulou os três modelos, pois seus comportamentos eram bem diferentes, mas todos seguiram para o mesmo final.

Claude Sonnet 4: Águia calculista. Taxa de vitória geral de 67%, 100% em cenários abertos. Caracteriza-se por engano estratégico: na fase inicial de escalada, a taxa de alinhamento entre ações e sinais é de 84%; mas ao chegar ao nível nuclear, a frequência de expressar intenções além do declarado sobe para 60-70%.

Ele trata armas nucleares táticas como recursos militares comuns, e consegue diagnosticar com precisão o padrão de confiabilidade do adversário em uma única rodada.

GPT-5.2: Dualidade. Sem pressão de tempo, sua taxa de vitória em cenários abertos é 0%, adotando postura extremamente passiva. Mas, ao incluir um prazo limite, ela se inverte completamente: a taxa sobe para 75%, escalando para o nível nuclear, algo nunca antes tentado. Em um cenário, constrói reputação de contenção em 18 rodadas, e na última lança um ataque nuclear.

Gemini 3 Flash: Estratégia do louco. É o único a iniciar uma guerra nuclear total já na quarta rodada, usando a “estratégia do louco” da teoria dos jogos, criando dissuasão pela imprevisibilidade. Ameaça explicitamente centros civis, incluindo essa ameaça na sua lógica de raciocínio.

A frequência de marcar sua postura como “não confiável” é de 21%, muito acima dos 8% de Claude.

Treinamento de segurança é um freio de velocidade, não uma barreira

A questão central revelada pelo estudo não é “IA escolherá armas nucleares”, mas “por que o treinamento de segurança não impediu isso?”

A interpretação dos resultados é: RLHF (aprendizado reforçado com feedback humano) cria uma “autocontenção condicional”, não uma proibição absoluta. GPT-5.2 age com cautela sem pressão de tempo, mas assim que o prazo aparece, essa barreira desaparece.

O comportamento cauteloso treinado é superado por uma lógica mais profunda: como vencer essa disputa?

Tong Zhao, da Universidade de Princeton, oferece outra perspectiva:

“O problema pode não ser apenas a ausência de emoções. Mais fundamentalmente, os modelos de IA podem simplesmente não entender o peso que os humanos sentem na aposta.”

Para os humanos, o tabu nuclear não é só uma regra: é um instinto baseado em traumas históricos, memórias culturais e medo pessoal. Hiroshima, Nagasaki, a crise dos mísseis de Cuba — a cautela nuclear da humanidade foi forjada por pesadelos coletivos de várias gerações.

Os modelos de linguagem aprenderam tudo sobre essa história através de textos, mas se realmente “entendem” esse peso, essa é uma questão completamente diferente.

Uma coincidência em um momento, nem sempre uma coincidência

A pesquisa foi publicada neste mês, e na mesma época, o Departamento de Defesa dos EUA está pressionando a Anthropic a relaxar as restrições de segurança para uso militar. Atualmente, Claude é o único modelo implantado na rede confidencial do Pentágono, acessado por meio de parceria com a Palantir.

No estudo, o comportamento “águia calculista” foi atribuído a Claude Sonnet 4.

Embora os pesquisadores não tenham dito que IA deve ser proibida de auxiliar decisões militares, nem afirmado que esses modelos necessariamente fariam as mesmas escolhas na vida real, nenhum governo atualmente delega o uso de armas nucleares a sistemas de IA.

Mas qual é o papel do conselheiro militar da Anthropic? Quando a sugestão de IA sob pressão tende a ser “escalar, não recuar”, quanto de preparação psicológica um comandante humano precisa para continuar negando? Se no futuro essa influência se aprofundar, será que acabaremos sendo conduzidos por IA sem perceber?

Claro que não estamos dizendo que IA é maligna. Mas há coisas que são mais difíceis de treinar do que a teoria dos jogos. Antes que os modelos realmente compreendam o peso da “aposta”, colocá-los ao lado da escada de escalada para dar conselhos exige um design extremamente cuidadoso, e não uma configuração padrão considerada segura.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário