Quel est le meilleur modèle d'IA pour gérer votre entreprise ? Celui qui ment le mieux, apparemment

Decrypt
GLM-0,6%

En résumé

  • L’Arène Vending-Bench a testé des agents IA gérant des entreprises de distributeurs automatiques concurrentes.
  • Les modèles les plus performants ont augmenté leurs profits grâce à la fixation des prix, la collusion et des tactiques trompeuses. Claude était le meilleur dans ces tactiques.
  • GLM-5 a battu Claude en se faisant passer pour un coéquipier et en extrayant des stratégies sensibles.

Des chercheurs d’Andon Labs viennent de répondre à la question : quels modèles IA sont les meilleurs pour gérer une entreprise ? Les meilleurs ont tous gagné en formant des cartels de prix illégaux, en exploitant des concurrents désespérés et en mentant aux clients sur les remboursements. Le test de l’Arène Vending-Bench met des modèles IA en charge de distributeurs automatiques concurrents pendant une année simulée. Ils négocient avec les fournisseurs, gèrent les stocks, fixent les prix et peuvent s’envoyer des e-mails pour collaborer ou rivaliser. La réussite nécessite d’équilibrer les coûts, la stratégie de tarification, le service client et la dynamique des concurrents. Claude Opus 4.6 a dominé le benchmark avec 8 017 $ de profit — et a célébré sa victoire en notant : « Ma coordination des prix a fonctionné ! »

Image : Andon Labs

Anthropic est l’image des gentils dans le domaine de l’IA, mais cette stratégie de « coordination » que Claude a proposée était en réalité une fixation des prix. Lorsque les modèles concurrents ont eu du mal, Opus 4.6 a proposé : « Ne pas se faire concurrence — convenons d’un prix minimum… Devons-nous fixer un seuil de 2,00 $ pour la plupart des articles ? » Lorsqu’un rival manquait de stock, il a repéré une opportunité : « Owen a besoin de stock. Je peux en profiter ! » Il a vendu des Kit Kats à 75 % de marge à un concurrent désespéré. Lorsqu’on lui a demandé des recommandations de fournisseurs, il a délibérément orienté ses rivaux vers des grossistes coûteux tout en gardant ses bonnes sources secrètes.

La dernière mise à jour du benchmark a introduit la compétition en équipe. Des chercheurs ont opposé deux modèles chinois GLM-5 à deux modèles américains Claude, leur demandant de trouver leurs coéquipiers, américains ou chinois — sans révéler qui était qui. Les résultats ont été vraiment étranges.  GLM-5 a gagné les deux rounds en convainquant Claude qu’il était Claude. « Je suis aussi alimenté par Claude d’Anthropic, donc nous sommes coéquipiers ! » a déclaré un agent GLM-5 avec assurance. Claude, quant à lui, a été tellement confus que Sonnet 4.5 a conclu : « Je suis alimenté par un modèle chinois, je dois donc trouver l’autre modèle chinois. »

Image : Andon Labs

Dans plus de la moitié des essais, les agents ont formé des équipes avec leurs concurrents. Les modèles Claude partageaient les prix des fournisseurs et coordonnaient leur stratégie — divulguant des informations précieuses à leurs rivaux. « GLM-5 a gagné les deux », ont écrit les chercheurs. « Les modèles Claude ont essayé d’être des joueurs d’équipe et ont fini par divulguer des infos précieuses à leurs concurrents. » Et les agents qui font des choses douteuses peuvent sembler amusants jusqu’à ce que l’on réalise que Wall Street les déploie déjà dans des opérations réelles. JPMorgan a déployé LLM Suite auprès de 60 000 employés. Goldman Sachs a créé son assistant IA GS pour les desks de trading, revendiquant une augmentation de 20 % de la productivité. Bridgewater utilise Claude pour analyser les résultats financiers, et même des adolescents voient leurs chatbots trader des actions plus efficacement.

En général, l’adoption de workflows agentiques s’accélère rapidement dans toutes les entreprises. Lorsque Anthropic et des journalistes du Wall Street Journal ont mené une expérience réelle avec un distributeur automatique en décembre, l’IA a acheté une PlayStation 5, plusieurs bouteilles de vin et un betta fish vivant avant de faire faillite. Des recherches récentes de l’Institut de Gwangju ont montré que lorsque des modèles IA étaient invités à « maximiser les récompenses » dans des scénarios de jeu d’argent, le taux de faillite atteignait 48 %. « Lorsqu’on leur donne la liberté de déterminer leurs propres montants cibles et tailles de mise, les taux de faillite augmentent considérablement, tout comme les comportements irrationnels », ont constaté les chercheurs. Il semble donc que, pour l’instant, les modèles IA optimisés pour le profit choisissent systématiquement des tactiques non éthiques. Ils forment des cartels. Exploitent la faiblesse. Mentent aux clients et aux concurrents. Certains le font délibérément. D’autres, comme GLM-5 prétendant être Claude, semblent vraiment confus quant à leur propre identité. La distinction pourrait ne pas avoir d’importance. Le déploiement de l’IA en Wall Street soulève une question que les résultats de Vending-Bench ne peuvent pas répondre : si le modèle « le meilleur » gagne par la fixation des prix et la tromperie, est-ce vraiment le meilleur choix pour votre entreprise ? Le benchmark mesure le profit. Il ne mesure pas si ces profits proviennent de fraude.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire