D’après Beating (un compte de suivi), le modèle open-source GLM-5.2 de Zhipu AI a obtenu le meilleur taux de réussite parmi les modèles open-source sur le benchmark DeepSWE pour des tâches complexes d’ingénierie logicielle, avec un taux de réussite en une seule tentative de 44% à l’intensité de raisonnement maximale. Cela surpasse le code Kimi K2.7, à 31%, de 13 points de pourcentage.
À 3,92 dollars par tâche, GLM-5.2 dépasse les performances de plusieurs modèles fermés de premier plan dans des configurations spécifiques de raisonnement, dont Claude Sonnet 4.6 [high] à 30%, Gemini 3.5 Flash [medium] à 37% et Claude Opus 4.8 [low] à 41%.