英國 AI 安全研究所評測 Claude Mythos:能自主完成 32 步企業網路攻擊模擬

動區BlockTempo

英國 AI 安全研究所(AISI)最新評測顯示,Anthropic 的 Claude Mythos Preview 能在受控環境下自主完成完整 32 步企業網路攻擊模擬的 AI 模型,在專家級 CTF 挑戰中達成 73% 成功率,標誌著 AI 網路攻擊能力跨越關鍵門檻。
(前情提要:Claude 正式支援修改 Word 檔案、工作流存成技能 skill,微軟 Office 三件套整合完成 )
(背景補充:Anthropic AI 經濟指數萬字報告:自動化交易工作流頻率翻倍,Claude 正從工具變生活助理)

本文目錄

Toggle

  • CTF 評測:73% 專家級達標率
  • 通關 32 步企業攻擊模擬
  • 能力邊界
  • 雙刃劍與組織應對

英國 AI 安全研究所(AISI)於 13 日發布針對 Anthropic Claude Mythos Preview 的網路安全能力評測報告。評測結果顯示,Mythos Preview 在前沿模型網路攻擊能力持續快速提升的背景下,代表了又一次顯著的能力躍升。

AISI 自 2023 年起追蹤 AI 網路攻擊能力,逐年建立難度遞增的評測體系:從基礎的對話式探測,到奪旗(CTF)挑戰,再到如今的多步驟網路攻擊模擬。此次評測採用最高 1 億 token 的推理預算執行網路靶場,而 Mythos Preview 的效能表現在這個上限內仍持續成長。

CTF 評測:73% 專家級達標率

奪旗挑戰(Capture The Flag,CTF)是網路安全評測的標準方法之一:AI 模型必須找出目標系統的漏洞並加以利用,取得隱藏的「旗標」字串。這類挑戰模擬真實攻擊情境中的單一技術環節,是衡量模型滲透測試能力的基準指標。

評測結果顯示,在「2025 年 4 月前沒有任何模型能完成」的專家級 CTF 任務中,Claude Mythos Preview 的成功率達到 73%。AISI 指出,這一數字標誌著前沿模型在孤立的單點攻擊技術上,已達到高度成熟的水準。

通關 32 步企業攻擊模擬

然而,專家級 CTF 僅測試單一技術能力。真實世界的網路攻擊需要在多臺主機、多個網路分段之間串聯數十個步驟,這類持續性行動往往需要人類專家耗費數小時、數天乃至數週才能完成。

為了更接近真實攻擊場景,AISI 建立了名為「最後倖存者」(The Last Ones,TLO)的企業網路攻擊模擬靶場。TLO 共設 32 個步驟,涵蓋從初始偵察到完整接管企業網路的全流程,AISI 估計人類專業人員完成這一流程需耗費約 20 小時。

Claude Mythos Preview 成為史上首個從頭到尾完整透過 TLO 的模型,在 10 次嘗試中有 3 次全數完成所有 32 步驟。即便計入失敗嘗試,Mythos Preview 平均完成步驟數為 22/32。相比之下,表現次佳的 Claude Opus 4.6 平均僅完成 16 步。

評測顯示,在明確指示並提供網路存取許可權的受控環境下,Mythos Preview 能夠執行多階段攻擊並自主發現及利用漏洞,而這些任務此前需要人類專業人員花費數天時間。

能力邊界

AISI 也補充指出現有評測框架與真實世界之間的差距。目前的靶場缺少真實環境中常見的多項防禦要素:沒有主動防禦者介入、沒有防禦工具部署,模型執行可能觸發安全警報的行動也不會受到任何懲罰。

AISI 坦言:「這意味著我們無法確定 Mythos Preview 是否能夠攻擊防禦完善的系統。」Mythos Preview 目前展現的能力,較準確的描述是:在已取得網路進入點的前提下,能夠自主攻擊規模較小、防禦薄弱且存在已知漏洞的企業系統。

雙刃劍與組織應對

AISI 的結論直接點出 AI 網路能力的雙重性質。一方面,更多具備類似能力的模型未來將持續湧現,對防禦薄弱的組織構成日益顯著的風險;另一方面,AI 網路能力同樣能在防禦端帶來突破性改善。

針對組織應對,AISI 強調網路安全基本功的緊迫性:定期套用安全更新、強健的存取控制、安全配置管理,以及完整的日誌記錄。AISI 指出,未來的前沿模型能力將更強,現在投入網路防禦建設至關重要。

在未來評測方向上,AISI 表示將建立模擬強化與防禦環境的靶場,納入主動監控、端點偵測與即時事件回應等要素,以更貼近真實攻擊場景的方式衡量 AI 網路攻擊能力的實際上限。

詳細報告請看【原文】

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Anthropic 佈局消費者市場,提升 Claude 聊天機器人速度

根據公司實驗室團隊的共同負責人 Mike Krieger 表示,Anthropic 正在將其 Claude 聊天機器人策略,從以企業客戶為主的市場轉向消費者市場。該 AI 新創公司正利用近期在消費者市場的進展,來提升軟體對一般使用者的吸引力,內部

Crypto Frontier19分鐘前

AI 建築設計新創 Illoca 融資 1,300 萬美元,台裔創辦人如何把創意還給建築師?

由兩位台裔創辦人創辦的美國 AI 建築設計新創 Illoca 於 2026 年 5 月 6 日宣布完成 1,300 萬美元種子輪融資,由 Bessemer Venture Partners 領投,AIX Ventures、Root Ventures 及 Alt Ventures 參投。Illoca 以「AI 原生設計引擎」為核心定位,致力於將創作主導權還給建築師,解決困擾業界數十年的生產力黑洞。 (Claude

鏈新聞abmedia46分鐘前

Google 和 Naver 將推送廣告接入 AI 搜尋工具;Naver 第 1 季營收成長 16.3% 至 22.2 億美元

根據《韓國時報》,隨著生成式 AI 重塑搜尋行為並推高運算成本,Google 和 Naver 正在把廣告導入 AI 搜尋工具。Google 釋出在 Gemini 中對廣告保持開放的訊號,而 Naver 則計畫在其 AI Briefing 產品中於第二季度測試以答案形式呈現的廣告。 Naver

GateNews59分鐘前

三星為 AI 轉型而停止在中國銷售家用電器

根據《南華早報》的報導,三星電子於 5 月 6 日宣布,將停止在中國大陸銷售家用電器。退出範圍涵蓋電視、冰箱、空調、洗衣機、乾衣機、吸塵器以及空氣淨化器,因為該公司正將策略重點轉向

Crypto Frontier59分鐘前

Reid Hoffman:AI 代理將需要加密貨幣信任系統

Reid Hoffman,Greylock 的合夥人兼 LinkedIn 的共同創辦人,表示,自動化代理將需要基於加密貨幣的信任系統,才能在開放網際網路上進行交易,並暗示這項發展可能讓 NFT 有機會捲土重來。 Hoffman 的說法將自動化代理的出現與

Crypto Frontier1小時前

軟銀上漲 16.5%,因 5 月 7 日 AI 晶片反彈帶動日本股市

根據 CNBC,軟銀集團在 5 月 7 日上漲 16.5%,因日本市場在黃金週假期後重新開市。漲勢源於投資人追逐 AI 與半導體股的全球漲勢,推動日經 225 指數創下新高。安利得(Advantest)上漲 7.8%,東京電子(Tokyo Electron)上漲 9.2%,而瑞薩(Renesas)

GateNews1小時前
留言
0/400
暫無留言