據 1M AI News 監測,SWE-rebench 是一個每月從 GitHub 抽取全新軟體工程任務(issue + PR)的即時基準測試,模型無法提前針對題目優化。維護者 Ibragim 3 月 23 日公布榜單更新,取消了此前的範例演示和 80 步操作限制,新增輔助評估任務。
最新前十排名:
- Claude Opus 4.6:65.3%
- GPT-5.2 medium:64.4%
- GLM-5:62.8%
- GPT-5.4 medium:62.8%
- Gemini 3.1 Pro Preview:62.3%
- DeepSeek-V3.2:60.9%
- Claude Sonnet 4.6:60.7%
- Claude Sonnet 4.5:60.0%
- Qwen3.5-397B-A17B:59.9%
- Step-3.5-Flash:59.6%
智譜 AI 的開源模型 GLM-5(MIT 協議)以 62.8% 排名第三,是榜上最高的開源模型。中國模型佔前十中四席,除 GLM-5 外,還有深度求索 DeepSeek-V3.2(第六)、阿里通義千問 Qwen3.5-397B-A17B(第九)以及階躍星辰 Step-3.5-Flash(第十)。智譜 Z.ai 全球負責人李子玄評論稱,上一次 SWE-rebench 更新時中國模型全部落在前十之外,被批評為「benchmaxing」(刷分)。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。