中國模型上次SWE-rebench全部進入前十被嘲「刷分」，這次佔了四席

区块律动

2026-03-25 06:07:19

據 1M AI News 監測，SWE-rebench 是一個每月從 GitHub 抽取全新軟體工程任務（issue + PR）的即時基準測試，模型無法提前針對題目優化。維護者 Ibragim 3 月 23 日公布榜單更新，取消了此前的範例演示和 80 步操作限制，新增輔助評估任務。

最新前十排名：

Claude Opus 4.6：65.3%
GPT-5.2 medium：64.4%
GLM-5：62.8%
GPT-5.4 medium：62.8%
Gemini 3.1 Pro Preview：62.3%
DeepSeek-V3.2：60.9%
Claude Sonnet 4.6：60.7%
Claude Sonnet 4.5：60.0%
Qwen3.5-397B-A17B：59.9%
Step-3.5-Flash：59.6%

智譜 AI 的開源模型 GLM-5（MIT 協議）以 62.8% 排名第三，是榜上最高的開源模型。中國模型佔前十中四席，除 GLM-5 外，還有深度求索 DeepSeek-V3.2（第六）、阿里通義千問 Qwen3.5-397B-A17B（第九）以及階躍星辰 Step-3.5-Flash（第十）。智譜 Z.ai 全球負責人李子玄評論稱，上一次 SWE-rebench 更新時中國模型全部落在前十之外，被批評為「benchmaxing」（刷分）。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言