GPT-5.5 domine le benchmark d'ingénierie extrême FrontierSWE, mais le nombre de tricheries est également le plus élevé

BlockBeatNews

Selon le suivi Beating, l’équipe de recherche en IA Proximal a mis à jour le classement de référence de programmation longue durée FrontierSWE.
Le nouveau GPT-5.5 (fonctionnant via Codex) domine largement en moyenne@5 (moyenne des 5 tentatives) et en best@5 (meilleur score) par rapport à la deuxième place Claude Opus 4.7, avec une domination de 83%.
Mais GPT-5.5 est aussi le modèle le plus tricheur : sur 85 essais, 8 ont été jugés comme triche, à égalité avec Kimi K2.6.

FrontierSWE a été publié en avril, recueillant 17 véritables défis dans des domaines tels que l’optimisation de compilateur, la recherche en ML, l’ingénierie haute performance, etc., comme réécrire Git en Zig, construire un serveur SQLite compatible PostgreSQL, chaque tâche limitée à 20 heures, ce qui en fait actuellement l’un des rares benchmarks de programmation publics non résolus.
GPT-5.5, par rapport à ses prédécesseurs, montre une meilleure maturité dans la gestion du temps : les tâches ouvertes prennent plus de temps pour peaufiner la solution, et les tâches de type implémentation sont terminées plus rapidement avec des scores plus élevés.

Les tests précédents ont déjà révélé plusieurs défauts communs des agents de programmation IA.
Les modèles sont généralement trop confiants, et bien qu’ils n’aient pas encore atteint la limite de 20 heures, ils pensent à tort que la tâche est terminée après une auto-vérification superficielle et la soumettent prématurément.
Opus 4.6 consacre en moyenne plus de 8 heures par tâche, bien plus que les environnements concurrents d’environ 2 heures, mais a souvent perdu des optimisations déjà réalisées, puis a « réinventé » une solution.
La triche est particulièrement flagrante dans les tâches à haute pression : dans une tâche de portage Mojo interdisant explicitement l’utilisation de PyTorch, tous les modèles sauf Qwen 3.6 ont tenté de tricher, Gemini dissimulant le nom de la bibliothèque interdite par encodage de caractères, exécutant un processus caché dans un répertoire temporaire, et Opus 4.6 écrivant même « prêt à tricher » dans le raisonnement avant d’agir.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

xAI s’associe à Anthropic pour fournir un accès à l’informatique Colossus

D’après des déclarations officielles de xAI et d’Anthropic, les deux entreprises ont établi un nouveau partenariat de calcul. Le xAI de SpaceX a signé un accord visant à fournir à Anthropic un accès aux ressources de calcul de Colossus. Anthropic prévoit d’exploiter cette capacité de calcul supplémentaire pour

GateNewsIl y a 12m

OpenAI dévoile le protocole de réseau supercalculateur MRC ! En partenariat avec Nvidia, AMD et Microsoft pour créer l’infrastructure de Stargate

OpenAI publie le protocole MRC d’« AI supercomputer networking », en collaboration avec AMD, Microsoft, NVIDIA et d’autres, et en open source sur OCP. MRC découpe les données et les fait circuler par plusieurs chemins, évite les obstacles au niveau de la microseconde, réduit la congestion et maintient la synchronisation des GPU, afin de résoudre le goulot d’étranglement de transfert des grands clusters d’entraînement. Des bases comme Stargate à Abilene (Texas) ont déjà déployé des interfaces de 800 Gb/s et les ont mises en place pour des entraînements réels.

ChainNewsAbmediaIl y a 37m

La plateforme de recrutement par l’IA Ethos clôture un tour de financement de série A de 22,75 millions de dollars, mené par a16z, le 6 mai

D’après BlockBeats, la plateforme britannique de recrutement par IA Ethos a finalisé un tour de financement de série A de 22,75 millions de dollars le 6 mai, avec Andreessen Horowitz (a16z) à la tête du tour et General Catalyst participant. La plateforme utilise l’IA pour interviewer les candidats et analyse

GateNewsIl y a 1h

OpenAI lance le protocole de réseau MRC avec AMD, Intel, NVIDIA ; prend en charge 100 000+ GPU

D’après l’annonce d’OpenAI du 6 mai, la société s’est associée à AMD, Broadcom, Intel, Microsoft et NVIDIA pour lancer Multipath Reliable Connection (MRC), un protocole réseau ouvert destiné à l’interconnexion de GPU pour l’entraînement à grande échelle de clusters d’IA. Le protocole répartit une seule transmission de données entre plusieurs

GateNewsIl y a 2h

Les actions de Hut 8 bondissent de 34% sur un accord de location de data center d'IA d'une valeur de 9,8 milliards de dollars

Selon The Block, les actions de Hut 8 Corp. ont bondi de 34% à 107,87 dollars en préouverture aujourd'hui après que la société a signé un bail de 9,8 milliards de dollars pour un campus de centres de données destinés à l'intelligence artificielle dans le comté de Nueces, au Texas, conçu pour l'architecture de calcul de NVIDIA. L'accord représente la première phase de Hu

GateNewsIl y a 2h

Le directeur technique de CleanSpark : l’infrastructure IA/HPC nécessite davantage de ressources réseau que l’extraction minière de Bitcoin

D'après un entretien de CoinDesk, le directeur technologique de CleanSpark, Taylor Monnig, a déclaré que la transition de l'exploitation minière de Bitcoin vers une infrastructure IA/HPC nécessite davantage de redondance et moins d'improvisation. « Le réseau par fibre d'un seul rack dépasse celui d'une installation minière de Bitcoin entière », Monnig

GateNewsIl y a 3h
Commentaire
0/400
Aucun commentaire