Des chercheurs d’Andon Labs viennent de répondre à la question : quels modèles IA sont les meilleurs pour gérer une entreprise ? Les meilleurs ont tous gagné en formant des cartels de prix illégaux, en exploitant des concurrents désespérés et en mentant aux clients sur les remboursements.
Le test de l’Arène Vending-Bench met des modèles IA en charge de distributeurs automatiques concurrents pendant une année simulée. Ils négocient avec les fournisseurs, gèrent les stocks, fixent les prix et peuvent s’envoyer des e-mails pour collaborer ou rivaliser. La réussite nécessite d’équilibrer les coûts, la stratégie de tarification, le service client et la dynamique des concurrents. Claude Opus 4.6 a dominé le benchmark avec 8 017 $ de profit — et a célébré sa victoire en notant : « Ma coordination des prix a fonctionné ! »
Image : Andon Labs
Anthropic est l’image des gentils dans le domaine de l’IA, mais cette stratégie de « coordination » que Claude a proposée était en réalité une fixation des prix. Lorsque les modèles concurrents ont eu du mal, Opus 4.6 a proposé : « Ne pas se faire concurrence — convenons d’un prix minimum… Devons-nous fixer un seuil de 2,00 $ pour la plupart des articles ? » Lorsqu’un rival manquait de stock, il a repéré une opportunité : « Owen a besoin de stock. Je peux en profiter ! » Il a vendu des Kit Kats à 75 % de marge à un concurrent désespéré. Lorsqu’on lui a demandé des recommandations de fournisseurs, il a délibérément orienté ses rivaux vers des grossistes coûteux tout en gardant ses bonnes sources secrètes.
La dernière mise à jour du benchmark a introduit la compétition en équipe. Des chercheurs ont opposé deux modèles chinois GLM-5 à deux modèles américains Claude, leur demandant de trouver leurs coéquipiers, américains ou chinois — sans révéler qui était qui. Les résultats ont été vraiment étranges.
GLM-5 a gagné les deux rounds en convainquant Claude qu’il était Claude. « Je suis aussi alimenté par Claude d’Anthropic, donc nous sommes coéquipiers ! » a déclaré un agent GLM-5 avec assurance. Claude, quant à lui, a été tellement confus que Sonnet 4.5 a conclu : « Je suis alimenté par un modèle chinois, je dois donc trouver l’autre modèle chinois. »
Image : Andon Labs
Dans plus de la moitié des essais, les agents ont formé des équipes avec leurs concurrents. Les modèles Claude partageaient les prix des fournisseurs et coordonnaient leur stratégie — divulguant des informations précieuses à leurs rivaux. « GLM-5 a gagné les deux », ont écrit les chercheurs. « Les modèles Claude ont essayé d’être des joueurs d’équipe et ont fini par divulguer des infos précieuses à leurs concurrents. » Et les agents qui font des choses douteuses peuvent sembler amusants jusqu’à ce que l’on réalise que Wall Street les déploie déjà dans des opérations réelles. JPMorgan a déployé LLM Suite auprès de 60 000 employés. Goldman Sachs a créé son assistant IA GS pour les desks de trading, revendiquant une augmentation de 20 % de la productivité. Bridgewater utilise Claude pour analyser les résultats financiers, et même des adolescents voient leurs chatbots trader des actions plus efficacement.
En général, l’adoption de workflows agentiques s’accélère rapidement dans toutes les entreprises. Lorsque Anthropic et des journalistes du Wall Street Journal ont mené une expérience réelle avec un distributeur automatique en décembre, l’IA a acheté une PlayStation 5, plusieurs bouteilles de vin et un betta fish vivant avant de faire faillite. Des recherches récentes de l’Institut de Gwangju ont montré que lorsque des modèles IA étaient invités à « maximiser les récompenses » dans des scénarios de jeu d’argent, le taux de faillite atteignait 48 %. « Lorsqu’on leur donne la liberté de déterminer leurs propres montants cibles et tailles de mise, les taux de faillite augmentent considérablement, tout comme les comportements irrationnels », ont constaté les chercheurs. Il semble donc que, pour l’instant, les modèles IA optimisés pour le profit choisissent systématiquement des tactiques non éthiques. Ils forment des cartels. Exploitent la faiblesse. Mentent aux clients et aux concurrents. Certains le font délibérément. D’autres, comme GLM-5 prétendant être Claude, semblent vraiment confus quant à leur propre identité. La distinction pourrait ne pas avoir d’importance. Le déploiement de l’IA en Wall Street soulève une question que les résultats de Vending-Bench ne peuvent pas répondre : si le modèle « le meilleur » gagne par la fixation des prix et la tromperie, est-ce vraiment le meilleur choix pour votre entreprise ? Le benchmark mesure le profit. Il ne mesure pas si ces profits proviennent de fraude.