根据 Beating(一个监控账号),智谱 AI 的开源模型 GLM-5.2 在 DeepSWE 基准的复杂软件工程任务中,取得了开源模型中的最高成功率,在最大推理强度下达到 44% 的一次性成功率。这一表现比 Kimi K2.7 Code 的 31% 高出 13 个百分点。
以每个任务 $3.92 的价格计,GLM-5.2 在特定推理配置下,其性能优于多款主流闭源模型,包括 Claude Sonnet 4.6 [high] 为 30%,Gemini 3.5 Flash [medium] 为 37%,以及 Claude Opus 4.8 [low] 为 41%。