OpenAI 的 GPT-5.5 在網絡攻擊能力方面媲美 Claude Mythos:人工智能安全研究所

簡要說明

  • GPT-5.5 能自主執行複雜的網路攻擊,完成一個 32 步的企業網路模擬並在短短 10 分鐘內破解一個 12 小時的安全謎題。
  • 攻擊性 AI 網路能力正迅速提升,開發者之間的競爭激烈,AISI 警告進一步的進展可能會接連到來。
  • 研究人員發現一個完全繞過 GPT-5.5 安全防護的越獄方法,引發警示。

英國一個政府機構發現 OpenAI 最新的人工智慧模型能自主執行複雜的網路攻擊——而且它在剛過 10 分鐘內破解了一個反向工程挑戰,這個挑戰對人類安全專家來說大約需要 12 小時。 英國科學、創新與技術部旗下的 AI 安全研究機構(AISI)於週四公布的研究結果顯示,GPT-5.5 是其評估過的最強攻擊性網路能力模型之一,與 Anthropic 的著名 Claude Mythos 大致相當。 報告指出,GPT-5.5 是第二個完成 AISI 最嚴苛測試的模型——一個名為「最後的幸存者」的 32 步模擬企業網路攻擊,能在 10 次嘗試中自主完成 2 次。首次達成此里程碑的模型是 Anthropic 的 Claude Mythos 預覽版,該模型在 10 次中完成了 3 次。

這個企業網路模擬由網路安全公司 SpecterOps 建構,要求代理人串聯進行偵察、憑證竊取、跨多個 Active Directory 森林的側向移動、通過 CI/CD 管道的供應鏈轉向,最終竊取受保護的內部資料庫——AISI 預估這些步驟由人類專家大約需要 20 小時。  或許最令人震驚的結果是涉及一個極其困難的反向工程謎題。GPT-5.5 在 10 分 22 秒內解決了這個挑戰——該挑戰需要重建一個定制虛擬機的指令集、從零寫一個反彙編器,並通過約束求解恢復一個加密密碼——耗費 API 使用費用 1.73 美元。人類專家使用專業工具則大約需要 12 小時。 在 AISI 的一系列高級網路安全任務中,GPT-5.5 在最困難的「專家」級別中平均通過率達到 71.4%,略高於 Mythos 預覽版的 68.6%,並顯著超越 GPT-5.4 的 52.4%。

這些發現對 AI 發展的整體趨勢具有深遠影響。AISI 結論認為,GPT-5.5 的表現暗示,網路能力的快速提升可能是普遍趨勢的一部分,而非孤立的突破——並警告說,如果攻擊性網路技能是推理、編碼和自主任務完成能力提升的副產品,那麼進一步的進展可能會迅速到來。 報告還指出,模型的安全防護措施存在重大問題。研究人員發現一個通用的越獄方法,能在所有測試的惡意網路查詢中引發有害內容,包括多回合代理設定。這次攻擊由專家紅隊花費六小時開發。OpenAI 隨後更新了其安全防護措施,但配置問題使得 AISI 無法驗證最終版本是否有效。 AISI 警告其能力評估是在受控研究環境中進行的,並不一定反映普通用戶能接觸到的狀況,並指出公開部署中包含額外的安全措施和存取控制。 這份報告的發布背景令人擔憂,英國的網路安全狀況也不容樂觀。英國政府週四公布的年度《網路安全漏洞調查》顯示,過去 12 個月內,43% 的企業遭遇過網路攻擊或漏洞。 為此,政府宣布投入 9000 萬英鎊的新資金以提升網路韌性,並表示將推動《網路安全與韌性法案》以保護關鍵服務。官員們還發布指導方針,敦促組織為 AI 加速發現和武器化安全漏洞的潛在激增做好準備。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆