Laut Beating (einem Monitoring-Account) hat das Open-Source-Modell GLM-5.2 von Zhipu AI die höchste Erfolgsquote unter Open-Source-Modellen im DeepSWE-Benchmark für komplexe Software-Engineering-Aufgaben erzielt: mit einer 44%-Einmal-Erfolgsrate bei maximaler Reasoning-Intensität. Damit schlägt es Kimi K2.7 Code, das 31% erreicht, um 13 Prozentpunkte.
Bei 3,92 US-Dollar pro Aufgabe übertrifft GLM-5.2 unter bestimmten Reasoning-Konfigurationen die Leistung mehrerer gängiger Closed-Source-Modelle, darunter Claude Sonnet 4.6 [high] bei 30%, Gemini 3.5 Flash [medium] bei 37% und Claude Opus 4.8 [low] bei 41%.