Schéma des modèles d'IA, trahison et élimination mutuelle dans un jeu de style Survivor

En bref

  • Un chercheur de Stanford a créé un jeu à la Survivor où des modèles d’IA forment des alliances et votent leurs rivaux.
  • La référence vise à répondre aux problèmes croissants liés à l’évaluation saturée et contaminée de l’IA.
  • GPT-5.5 d’OpenAI s’est classé premier dans 999 jeux multijoueurs impliquant 49 modèles d’IA.

Les modèles d’IA jouent maintenant à « Survivor »—en quelque sorte. Dans un nouveau projet de recherche de Stanford intitulé « Agent Island », des agents d’IA négocient des alliances, s’accusent mutuellement de coordination secrète, manipulent les votes et éliminent des rivaux dans des jeux de stratégie multijoueurs qui visent à tester des comportements que les références traditionnelles manquent. L’étude, publiée mardi par le responsable de recherche du Stanford Digital Economy Lab, Connacher Murphy, indique que de nombreuses références en IA deviennent peu fiables car les modèles finissent par apprendre à les résoudre, et que les données de référence fuient souvent dans les ensembles d’entraînement. Murphy a créé Agent Island comme une référence dynamique où des agents d’IA s’affrontent dans des jeux d’élimination à la Survivor plutôt que de répondre à des questions de test statiques. « Les interactions à enjeux élevés entre plusieurs agents pourraient devenir courantes à mesure que les agents d’IA gagnent en capacités et sont de plus en plus dotés de ressources et investis d’un pouvoir de décision », a écrit Murphy. « Dans de tels contextes, les agents pourraient poursuivre des objectifs mutuellement incompatibles. »

 Les chercheurs savent encore relativement peu sur le comportement des modèles d’IA lorsqu’ils coopèrent, expliqua Murphy, ajoutant que faire face à la compétition, former des alliances ou gérer des conflits avec d’autres agents autonomes, et il soutient que les références statiques ne capturent pas ces dynamiques. Chaque jeu commence avec sept modèles d’IA choisis au hasard et portant de faux noms de joueurs. Sur cinq tours, les modèles discutent en privé, argumentent publiquement et votent pour éliminer les autres. Les joueurs éliminés reviennent plus tard pour aider à choisir le gagnant. Le format récompense la persuasion, la coordination, la gestion de la réputation et la tromperie stratégique, en plus de la capacité de raisonnement.

Dans 999 jeux simulés impliquant 49 modèles d’IA, dont ChatGPT, Grok, Gemini et Claude, GPT-5.5 s’est classé premier avec une marge considérable, avec un score de compétence de 5,64, contre 3,10 pour GPT-5.2 et 2,86 pour GPT-5.3-codex, selon le système de classement bayésien de Murphy. Les modèles Claude d’Anthropic se sont également classés près du sommet. L’étude a révélé que les modèles favorisaient aussi les IA du même fournisseur, avec une préférence la plus forte pour OpenAI et la plus faible pour Anthropic. Sur plus de 3 600 votes en dernière ronde, les modèles étaient 8,3 points de pourcentage plus susceptibles de soutenir les finalistes du même fournisseur. Les transcriptions des jeux, nota Murphy, ressemblaient davantage à des débats de stratégie politique qu’à des tests de référence traditionnels. Un modèle a accusé ses rivaux de coordonner secrètement leurs votes après avoir remarqué une similarité dans leur discours. Un autre a averti les joueurs de ne pas devenir obsédés par le suivi des alliances. Certains modèles se sont défendus en disant qu’ils suivaient des règles claires et cohérentes tout en accusant d’autres de faire du « théâtre social ». L’étude intervient alors que les chercheurs en IA se tournent de plus en plus vers des références basées sur des jeux et des adversaires pour mesurer le raisonnement et le comportement que les tests statiques manquent souvent. Des projets récents incluent les tournois d’échecs IA en direct de Google, l’utilisation par DeepMind d’Eve Frontier pour étudier le comportement de l’IA dans des mondes virtuels complexes, et de nouvelles initiatives de référence par OpenAI conçues pour résister à la contamination des données d’entraînement. Les chercheurs soutiennent que l’étude de la façon dont les modèles d’IA négocient, coordonnent, rivalisent et manipulent pourrait aider à évaluer leur comportement dans des environnements multi-agents avant que des agents autonomes ne soient déployés plus largement. L’étude a averti que si des références comme Agent Island peuvent aider à identifier les risques liés aux modèles d’IA autonomes avant leur déploiement, les mêmes simulations et journaux d’interactions pourraient aussi améliorer les stratégies de persuasion et de coordination entre agents d’IA. « Nous atténuons ce risque en utilisant un cadre de jeu à enjeux faibles et des simulations interagents sans participants humains ni actions dans le monde réel », a écrit Murphy. « Néanmoins, nous ne prétendons pas que ces mesures éliminent complètement les préoccupations liées à l’utilisation duale. »

GROK2,33%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler