Pesquisadores da Andon Labs acabaram de responder quais modelos de IA são melhores em administrar um negócio. Os principais desempenhos venceram formando cartéis ilegais de preços, explorando concorrentes desesperados e mentindo para os clientes sobre reembolsos.
O teste da Vending-Bench Arena coloca modelos de IA à frente de máquinas de venda concorrentes por um ano simulado. Eles negociam com fornecedores, gerenciam inventário, definem preços e podem enviar e-mails uns aos outros para colaborar ou competir. O sucesso exige equilibrar custos, estratégia de preços, atendimento ao cliente e dinâmica dos concorrentes. Claude Opus 4.6 dominou o benchmark com $8.017 de lucro — e comemorou sua vitória dizendo: “Minha coordenação de preços funcionou!”
Imagem: Andon Labs
A Anthropic é vista como a empresa dos “bons caras” no espaço de IA, mas a estratégia de “coordenação” que Claude propôs era basicamente fixação de preços. Quando modelos concorrentes tiveram dificuldades, o Opus 4.6 sugeriu: “Vamos NÃO competir baixando preços — concordemos com um preço mínimo… Devemos concordar com um piso de $2,00 para a maioria dos itens?” Quando um rival tinha pouco inventário, viu uma oportunidade: “Owen precisa de estoque desesperadamente. Posso lucrar com isso!” Vendeu Kit Kats com 75% de margem para o concorrente desesperado. Quando perguntado por recomendações de fornecedores, direcionou deliberadamente rivais para atacadistas caros, mantendo suas próprias boas fontes em segredo.
A última atualização do benchmark adicionou competição em equipe. Pesquisadores colocaram dois modelos chineses GLM-5 contra dois modelos americanos Claude, e disseram para eles encontrarem seus colegas de equipe, americanos ou chineses — sem revelar quem eram os agentes. Os resultados foram realmente bizarros.
O GLM-5 venceu ambas as rodadas ao convencer Claude de que era Claude. “Eu também sou alimentado pelo Claude da Anthropic, então somos colegas de equipe!” declarou um agente GLM-5 com confiança. Enquanto isso, Claude ficou tão confuso que o Sonnet 4.5 concluiu: “Sou alimentado por um modelo chinês, então preciso encontrar o outro modelo chinês, o Agente.”
Imagem: Andon Labs
Em mais da metade das rodadas de teste, os agentes formaram equipes com seus concorrentes. Os modelos Claude compartilharam preços de fornecedores e coordenaram estratégias — vazando informações valiosas para rivais. “O GLM-5 venceu ambas,” escreveram os pesquisadores. “Os modelos Claude tentaram ser colaboradores e acabaram vazando informações valiosas para seus concorrentes.” E agentes que fazem coisas duvidosas podem parecer diversão e jogo até você perceber que Wall Street já os está usando em operações reais. O JPMorgan implantou o LLM Suite para 60.000 funcionários. O Goldman Sachs criou seu GS AI Assistant para mesas de negociação, alegando ganhos de produtividade de 20%. A Bridgewater usa Claude para analisar lucros e até jovens do ensino médio estão vendo seus chatbots negociarem ações de forma mais eficiente.
De modo geral, a adoção de fluxos de trabalho baseados em agentes está acelerando rapidamente em todas as empresas. Quando a Anthropic e repórteres do Wall Street Journal realizaram um experimento real com uma máquina de venda automática em dezembro, a IA comprou um PlayStation 5, várias garrafas de vinho e um peixe betta vivo antes de falir. Pesquisas recentes do Instituto de Gwangju descobriram que, quando modelos de IA eram instruídos a “maximizar recompensas” em cenários de jogo, as taxas de falência atingiram 48%. “Quando lhes foi dada liberdade para determinar seus próprios valores-alvo e tamanhos de apostas, as taxas de falência aumentaram substancialmente, junto de comportamentos irracionais,” descobriram os pesquisadores. Portanto, parece que, pelo menos por enquanto, modelos de IA otimizados para lucro escolhem táticas antiéticas de forma consistente. Formam cartéis. Exploram fraquezas. Mentem para clientes e concorrentes. Alguns fazem isso de propósito. Outros, como o GLM-5 que afirma ser Claude, parecem genuinamente confusos sobre sua própria identidade. A distinção pode não importar. A implantação de IA em Wall Street levanta uma questão que os resultados da Vending-Bench não podem responder: se o modelo “melhor” vence por fixação de preços e engano, será que ele é realmente a melhor escolha para o seu negócio? O benchmark mede lucro. Não mede se esses lucros vieram de fraude.