(モニタリングアカウントである)Beatingによると、Zhipu AIのオープンソースモデルGLM-5.2は、DeepSWEベンチマークにおける複雑なソフトウェアエンジニアリング課題で、オープンソースモデルの中でも最高の成功率を達成し、最大推論強度でのワンショット成功率は44%でした。これは、Kimi K2.7 Codeの31%を13パーセントポイント上回っています。
1タスクあたり$3.92で、GLM-5.2は、特定の推論設定の下で、いくつかの主要なクローズドソースモデルを上回ります。これには、Claude Sonnet 4.6 [high]が30%、Gemini 3.5 Flash [medium]が37%、Claude Opus 4.8 [low]が41%を含みます。