AGI 已經來臨了嗎?新一代 AI 基準測試顯示,還遠未到達

Decrypt

簡要

  • ARC-AGI-3 揭示了人工通用智能(AGI)聲稱與現實之間的巨大差距,頂尖AI模型的得分都低於1%,而人類則能達到完美表現。
  • 這個基準測試真正考驗的是泛化能力——要求代理在未知環境中探索、規劃並從零學習,而非回憶訓練過的模式。
  • 儘管業界炒作不斷,目前的AI系統仍遠未達到AGI,缺乏即使是年幼人類也自然展現的推理與適應能力。

Nvidia執行長黃仁勳上週在Lex Fridman的播客中直言:「我認為我們已經實現了AGI。」兩天後,AI研究中最嚴格的測試推出了最新的人工通用智能基準——每個前沿模型的得分都低於1%。
ARC獎基金會本週發布了ARC-AGI-3,結果令人震驚。Google的Gemini 3.1 Pro以0.37%領先,OpenAI的GPT-5.4得分0.26%,Anthropic的Claude Opus 4.6為0.25%,而xAI的Grok-4.20則得分為零。人類則在所有環境中都達成了100%的解答。
這不是一個小測驗或程式設計考試,甚至不是超難的博士級問題。ARC-AGI-3是前所未有的全新挑戰。

這個基準由François Chollet和Mike Knoop的基金會建立,他們設立了內部遊戲工作室,從零創建了135個原創互動環境。其理念是將AI代理放入一個陌生的類遊戲世界,沒有任何指示、沒有明確目標,也沒有規則描述。代理必須探索、理解規則、制定計劃並執行。
如果你覺得這像是五歲兒童也能做到的事情,那你開始理解問題了。如果你想知道自己是否比AI更厲害,可以點擊這個連結,玩一玩測試中的遊戲。我們試了一個,起初很奇怪,但幾秒鐘後就能很快掌握。

這也是“G”在AGI中最清楚的代表。當你進行泛化時,你能在未經訓練的情況下創造新知識(理解一個奇怪遊戲的運作方式)。

之前的ARC版本測試的是靜態視覺拼圖——展示一個圖案,預測下一個。起初很難。後來實驗室投入大量計算能力和訓練,讓基準幾乎無法突破。2019年推出的ARC-AGI-1,主要測試訓練和推理模型。ARC-AGI-2持續約一年,直到Gemini 3.1 Pro達到77.1%。實驗室非常擅長在可訓練的基準上達到飽和。
第3版則專門設計來避免這一點。135個環境中,有55個半私有用於API測試,55個完全封閉用於比賽,沒有資料集可供記憶。你無法用暴力破解從未見過的遊戲邏輯。
得分也不是簡單的合格/不合格。ARC-AGI-3採用基金會稱之為RHAE(相對人類行動效率)。基準是第二佳的首次人類表現。若AI的行動次數是人類的十倍,得分僅為1%,而非10%。公式會將低效率的懲罰平方。漫無目的地閒逛、回溯和猜測都會受到嚴厲懲罰。

在為期一個月的開發者預覽中,最優的AI代理得分為12.58%。通過官方API測試的前沿大型語言模型(LLMs),沒有自訂工具,連1%都破不了。普通人類在沒有任何訓練和指示的情況下,解決了所有135個環境。若這是標準,那麼目前的模型還遠未達到。
這裡有一個真正的方法論爭議。ARC的報告指出,杜克大學打造的自訂測試平台曾將Claude Opus 4.6在一個名為TR87的單一環境變體中,從0.25%提升到97.1%。但這並不代表Claude在整個ARC-AGI-3中得分97.1%;其官方基準分仍是0.25%,但這一變化值得注意。
官方基準輸入的是JSON代碼,而非視覺圖像。這可能是方法上的缺陷,也可能顯示當今模型在處理人類友好的資訊方面比處理原始結構化數據更擅長。Chollet的基金會已承認這個爭議,但並未改變格式。
“框架內容感知和API格式並不是前沿模型在ARC-AGI-3上表現的限制因素,”該論文寫道。換句話說,他們似乎拒絕模型因“看不見”任務而失敗的觀點,認為感知已經足夠——真正的差距在於推理和泛化能力。

這場AGI現實檢驗正值一週內炒作熱度全開之時。除了黃仁勳的評論外,Arm將其新數據中心芯片命名為“AGI CPU”。OpenAI的Sam Altman表示他們“基本上已經建成了AGI”,微軟也在推廣一個專注於打造ASI(超越AGI的進化版本)的實驗室:這個詞被拉得越來越寬,似乎只要商業上方便就能用。
Chollet的立場則更為簡單:如果一個普通人沒有任何指示就能做到,而你的系統做不到,那你就沒有AGI——你擁有的只是一個需要大量幫助的昂貴自動完成功能。
ARC獎2026年將提供200萬美元獎金,分為三個比賽賽道,全部在Kaggle上舉行。每個獲勝方案都必須開源。目前來看,這些機器還遠遠達不到。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言