根據 ARC Prize,智譜的 GLM-5.2 模型近期在 ARC-AGI 基準測試中通過官方驗證。在 ARC-AGI-2 上,GLM-5.2 達到 22.8% 準確率,每個任務平均成本為 0.25 美元;而在較簡單的 ARC-AGI-1 基準測試中,它以每次運行 0.19 美元的成本達到 77.0% 準確率。
GLM-5.2 的整體表現與 OpenAI 的 GPT-5.4 和 GPT-5.5 在低推理努力模式下相當。ARC-AGI 旨在透過訓練中從未見過的抽象模式識別任務來評估 AGI 級別的推理能力。