Zhipu GLM-5.2 domine le benchmark open-source DeepSWE avec un taux de réussite de 44%, surpassant les modèles fermés grand public

D’après Beating (un compte de suivi), le modèle open-source GLM-5.2 de Zhipu AI a obtenu le meilleur taux de réussite parmi les modèles open-source sur le benchmark DeepSWE pour des tâches complexes d’ingénierie logicielle, avec un taux de réussite en une seule tentative de 44% à l’intensité de raisonnement maximale. Cela surpasse le code Kimi K2.7, à 31%, de 13 points de pourcentage.

À 3,92 dollars par tâche, GLM-5.2 dépasse les performances de plusieurs modèles fermés de premier plan dans des configurations spécifiques de raisonnement, dont Claude Sonnet 4.6 [high] à 30%, Gemini 3.5 Flash [medium] à 37% et Claude Opus 4.8 [low] à 41%.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire