
區塊鏈安全審計公司 OpenZeppelin 對 OpenAI 與 Paradigm 合作推出的智能合約安全 AI 基準測試 EVMbench 進行了獨立審計,並發現兩大嚴重問題:訓練資料污染以及至少 4 個被標記為「高危漏洞」的分類實際上屬於無效偽造。
EVMbench 的資料污染問題:AI 訓練截止日期的關鍵漏洞
EVMbench 於 2026 年 2 月中旬發布,旨在評估不同 AI 模型識別、修復和利用智能合約漏洞的能力,測試期間 AI 代理的網路存取權限被切斷,防止其從網路搜尋答案。然而,OpenZeppelin 的審計揭示了一個結構性漏洞:該基準測試是基於 2024 年至 2025 年年中期間開展的 120 次審計中篩選的漏洞,而多數頂尖 AI 模型的知識訓練截止日期同樣設定在 2025 年年中。
這意味著,AI 代理很可能在預訓練期間已接觸過 EVMbench 的漏洞報告,其記憶體中可能已儲存了所有問題的答案。OpenZeppelin 表示:「AI 安全最重要的能力是發現模型以前從未見過的程式碼中的新漏洞。」資料集規模有限進一步放大了污染對整體評估的影響。
EVMbench 審計發現的關鍵問題
訓練資料污染:AI 代理的預訓練可能已包含 EVMbench 的漏洞報告,使「零知識發現」測試失去意義
無效高危漏洞分類:至少 4 個被標記為高危的漏洞實際上無法被利用
評分系統缺陷:EVMbench 此前對 AI 發現這些偽漏洞的行為給予積分,評分基礎存在問題
資料集規模有限:進一步放大了污染對整體評估結果的影響
當前排行榜:Anthropic 的 Claude 4.6 領先,OpenAI 的 OC-GPT-5.2 和 Google 的 Gemini 3 Pro 緊隨其後
偽漏洞危機:至少 4 個高危分類被證實無效
除資料污染外,OpenZeppelin 還發現了更具體的事實錯誤。他們評估了至少 4 個被 EVMbench 歸類為高危的漏洞,發現這些漏洞實際上不存在——更關鍵的是,其描述的漏洞利用方式根本無法奏效。
「這些並非主觀上的嚴重性分歧;而是發現所描述的漏洞利用方式並未奏效,」OpenZeppelin 指出。若 AI 代理在測試中「發現」了這些偽漏洞,意味著評分系統在獎勵錯誤的結果。
OpenZeppelin 強調,這次審計並非否定 AI 在區塊鏈安全中的潛力:「問題不在於 AI 是否會改變智能合約的安全性——它肯定會。問題在於,我們用來建構和評估這些工具的資料和基準,是否與它們旨在保護的合約遵循相同的標準。」
常見問題
OpenZeppelin 對 EVMbench 的審計發現了什麼問題?
OpenZeppelin 發現兩大核心問題:一是訓練資料污染,EVMbench 的測試漏洞來自 2024 至 2025 年中的審計報告,與 AI 模型訓練截止日期重疊,這些模型可能在預訓練中已「見過」答案;二是至少 4 個高危漏洞分類屬於無效偽造,其描述的攻擊方式實際上無法執行。
資料污染為何對 AI 安全評測如此危險?
如果 AI 模型在預訓練中已接觸過基準測試的漏洞報告,它可能透過記憶體「回答」問題,而非真正的漏洞發現能力。這使整個評測失去「零知識測試」的意義,無法真實反映 AI 面對全新未知智能合約時的實際安全審計能力。
OpenZeppelin 對 AI 在區塊鏈安全領域的前景持何種態度?
OpenZeppelin 明確表示,AI 將對智能合約安全產生重大影響,但強調這種影響必須建立在可信的方法論和準確評測基礎之上。他們認為 EVMbench 的問題不是否定 AI 的信號,而是對行業標準的一次重要警示。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
ZachXBT Exposes 350,000 Fake Followers: False War News Drives Engagement, Crypto Scam Pump-and-Dump Scheme Resurfaces
On-chain investigator ZachXBT exposed an account named "Rashid bin Saeed" that attracted attention through false geopolitical information and allegedly manipulated crypto assets. The account promoted a memecoin called CHIBI and exhibited patterns consistent with high volatility cases, reminding investors to be cautious about information sources to prevent market manipulation.
GateNews16分鐘前
ZachXBT 拆穿假戰爭帳號:利用伊朗恐慌推廣垃圾代幣
調查員ZachXBT揭露「Rashid bin Saeed」是一假帳號,藉由發布戰爭相關內容快速累積粉絲,目的是推廣低市值代幣CHIBI進行操控。透過用戶名頻繁更改、異常快速的驗證狀態和不成比例的粉絲數等特徵,此帳號顯示出典型的詐騙跡象。在極度恐懼的市場中,這種操縱手法更容易得逞。
Market Whisper21分鐘前
Resolv 私鑰被盜 2300 萬美元,Morpho 確認主協議安全
去中心化金融協議 Resolv Labs 因私鑰被盜,造成約 2,300 萬美元損失。Morpho 協議的狀況良好,僅少數金庫受影響。Resolv攻擊蝕透了金鑰管理漏洞,而 Morpho 風險由策展人負責,未承受損失。用戶應關注風險更新。
Market Whisper58分鐘前
2026 年以来 DeFi 领域发生 15 起安全攻击事件,累计损失超 1.37 亿美元
Since 2026, at least 15 security attack incidents have occurred in the decentralized finance sector, with cumulative losses exceeding $137 million, with major losses concentrated in projects such as Step Finance, Truebit, and Resolv.
GateNews3小時前
Gauntlet 正与 Resolv 商讨解决方案,平台金库未受 USR 异常增发影响
Gauntlet 正在与 Resolv 讨论解决方案,并制定补偿方案。Gauntlet USD Alpha 平台及资金提供者不受 USR 增发事件影响,大部分财库稳定,仅少数高收益金库受到有限影响。
GateNews3小時前
印度警方逮捕 CoinDCX 創辦人,平台稱 FIR 由冒名者主導
印度加密貨幣交易所CoinDCX的創辦人因涉嫌詐騙而被警方逮捕,該事件源於一名保險顧問的報案,聲稱在非官方網站上遭受損失。CoinDCX否認指控,稱詐欺行為由仿冒網站實施,並表示已舉報多個假網站。此次逮捕是該公司近一年內的第二起警察事件。
Market Whisper3小時前