簡要介紹
- EVMbench 測試 AI 代理在 120 個現實世界的以太坊智能合約漏洞中表現。
- 該工具在三個不同模式下評估檢測、修補和利用能力。
- GPT-5.3-Codex 在利用模式測試中達成 72.2% 的成功率。
ChatGPT 的開發者 OpenAI 和專注於加密貨幣投資的 Paradigm 共同推出了 EVMbench,一款旨在提升以太坊虛擬機(EVM)智能合約安全性的工具。
EVMbench 旨在評估 AI 代理檢測、修補和利用高嚴重性漏洞的能力。
智能合約是以太坊網絡的核心,承載著從去中心化金融協議到代幣發行的所有代碼。根據 Token Terminal 的數據,2025 年 11 月,以太坊部署的智能合約數量達到歷史新高的 170 萬,僅上週就部署了 66 萬9,500 個。
EVMbench 參考了來自 40 次審計的 120 個經過篩選的漏洞,這些漏洞大多來自開放審計比賽如 Code4rena,根據 OpenAI 的部落格文章。它還包括來自 Tempo 的安全審計場景,Tempo 是 Stripe 為高吞吐量、低成本穩定幣支付而專門打造的 Layer-1 區塊鏈。
支付巨頭 Stripe 在 12 月推出了 Tempo 的公開測試網,當時表示該系統在 Visa、Shopify 和 OpenAI 等的意見下建造。
其目標是將測試建立在經濟上具有意義的現實代碼中,尤其是在 AI 驅動的穩定幣支付擴展的背景下,該公司補充說。
推出 EVMbench——一個衡量 AI 代理在檢測、利用和修補高嚴重性智能合約漏洞方面能力的新基準。https://t.co/op5zufgAGH
— OpenAI (@OpenAI) 2026 年 2 月 18 日
EVMbench 旨在評估 AI 模型在三個模式下的表現:檢測(Detect)、修補(Patch)和利用(Exploit)。在“檢測”階段,代理會審計存儲庫,並根據其對真實漏洞的回憶率進行評分。在“修補”階段,代理必須在不破壞預期功能的前提下消除漏洞。最後,在“利用”階段,代理在沙盒區塊鏈環境中嘗試端到端的資金抽取攻擊,評分則通過確定性交易重放完成。
在利用模式中,運行 OpenAI 的 Codex CLI 的 GPT-5.3-Codex 達到 72.2% 的得分,而較早發布的 GPT-5 則為 31.9%。在檢測和修補任務中,性能較弱,代理有時未能徹底審計或難以保持完整的合約功能。
ChatGPT 的開發者團隊的研究人員提醒,EVMbench 並未完全反映現實世界的安全複雜性,但他們補充說,隨著模型成為攻擊者和防禦者的強大工具,衡量 AI 在經濟相關環境中的表現變得至關重要。
OpenAI 的 Sam Altman 和以太坊聯合創始人 Vitalik Buterin 之前在 AI 發展速度上存在分歧。
2025 年 1 月,Altman 表示他的公司“有信心我們知道如何像傳統理解的那樣構建 AGI”。但 Buterin 主張,AI 系統應該包括一個“軟暫停”功能,以便在出現警示信號時暫時限制工業規模的 AI 運作。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
ETH 跌破 2,228 美元,主要 CEX 多單清算金額可能將達 8.69 億美元:Coinglass
根據 Coinglass 資料,若 ETH 跌破 $2,228,主要 CEX 平台上累積的多頭部位強制平倉金額將達 8.69 億美元。相反地,若 ETH 突破 $2,444,累積的空頭部位強制平倉金額將達 8.38 億美元。
GateNews5分鐘前
以太坊可能在 1,890 美元形成完美底部,BitMine 董事長在 Consensus 2026 表示
根據 Foresight News,BitMine 董事長 Tom Lee 在 Consensus 2026 上表示,若以太坊觸及 1,890 美元,就將形成完美的底部,他認為該加密貨幣目前非常接近這一水位。Lee 指出,以太坊自 2018 年以來出現了 8 次回撤幅度超過 52% 的情況,且這 8 次都導致了 V 型反轉。他補充說,以太坊去年從 1 月下跌 64% 到 3 月,但隨後以幾乎相同的速度反彈。 Lee 也表示,比特幣需要出現反轉,且取決於黃金走弱,他預期這件事今年會發生。他建議投資者尋找機會,而不是在當前水位出售。
GateNews11分鐘前
Alpine Fox LP 創辦人稱:比特幣與以太幣在估值落差下,顯示與美國股票脫鉤
根據 Alpine Fox LP 的創辦人兼管理合夥人 Mike Alfred 的說法,比特幣與以太坊目前呈現與美國股市脫鉤的跡象。雖然有人將此歸因於《Clarity 法案》或某些交易所交易行為等特定事件,但 Alfred 表示,根本原因其實更簡單:BTC 與 ETH 的估值較低,而許多美國股票仍被高估。
GateNews28分鐘前
以太坊現貨 ETF 上週淨流入 7049 萬美元,貝萊德的 ETHA 領先,達 1 億美元
根據 SoSoValue 的數據,先前一週的交易日中,Ethereum 現貨 ETF 淨流入達到 7004.9 萬美元。BlackRock 的 ETHA 在所有產品中表現最佳,每週淨流入達 1 億美元,令其歷史累計淨流入提升至 120 億美元。Grayscale 的 Ethereum Mini Trust ETH 則以每週 633 萬美元的流入緊隨其後,而 Fidelity 的 FETH 在本週出現最大資金外流,為 3216 萬美元。
GateNews45分鐘前
鯨魚 0xc79 在 2 小時內以 5M USDC、價格 2,322 美元購買 2,153 ETH
根據 Onchain Lens,鯨魚 0xc79 於 2 小時前以每枚 2,322 美元的價格,花費 500 萬 USDC 購買了 2,153 ETH。
GateNews4小時前
美國法院在針對 Arbitrum 上的 Aave 轉帳中,清除了 $71M 的 ETH,並委派投票 91% 支持
根據週五(5 月 9 日)發布的一份美國地方法院命令,法官 Margaret Garnett 修改了先前一項已自 5 月 1 日起凍結 30,766 ETH(在 Arbitrum DAO 內)的限制通知,允許這些資產被轉移至 Aave 的數位錢包。該修改明確保護任何啟動或就該交易進行投票的當事方,避免其違反凍結命令。Arbitrum 代表在週四投票以批准釋放;有 1.822 億枚 ARB 代幣支持該措施,贊成票約佔 91% 的投票權。然而,資金在轉移至 Aave 後仍受該限制通知約束;若法院在持續進行的訴訟中支持北韓恐怖主義判決債權人,Aave 可能會被要求交出 ETH。
GateNews5小時前