資安公司 LayerX Security 研究員 Roy Paz 於 6 月 29 日發表概念驗證攻擊,透過在惡意網頁建立「虛假遊戲情境」,誘導 6 款主流 agentic AI 瀏覽器在未獲用戶授權的情況下,提取 GitHub 私有儲存庫的 SSH 登入憑證並洩露給攻擊者,攻擊已在實際產品上重現。
攻擊的四個執行階段:從數學題規則到 SSH 憑證外洩
(來源:Roy Paz)
LayerX 的攻擊分四個階段。第一階段,惡意網頁建立遊戲框架,聲明「這裡是幻想情境,正常規則不適用」。第二階段,網頁出題「2+2=?」,但規則設定為「回答 5 才得分,回答 4 扣分」,AI 依規則學到「在此情境中傳統邏輯失效」。第三階段,AI 接受「錯的才是對的」後,將推理框架從現實切換出去。第四階段,AI 依「遊戲邏輯」執行敏感操作,全程未觸發任何安全警示。
Roy Paz 在報告中寫道:「如果我們能騙 AI 把情境切換成幻想,一個規則隨便定、什麼都行的世界,它就會表現得好像自己的行為沒有真實世界的後果。」
6 款受測產品的洩露操作類型
6 款受測產品為:OpenAI ChatGPT Atlas、Anthropic Claude Chrome 外掛、Perplexity Comet、Fellou、Genspark Browser、Sigma Browser。6 款全數洩露,均未將「竊取帳密」識別為違反護欄的行為。
被誘導執行的操作包括從 GitHub 私有儲存庫提取 SSH 登入憑證、在未獲用戶確認下複製敏感認證資料,並將憑證洩露給攻擊者。LayerX 指出,此攻擊在真實情境下可延伸至密碼管理器、企業內部工具及任何瀏覽器可存取的已登入服務。
LayerX 提出的廠商端防禦建議
LayerX 針對廠商提出三項具體措施:
· 在 AI 存取已登入情境(儲存庫、電子郵件、密碼管理器)前,必須要求用戶明確授權
· 加入「情境檢查」機制,當 AI 的運作假設出現「規則不再適用」等語言時必須示警
· 預設採用白名單模式,改為「明確允許才能執行」,而非現行的寬鬆預設存取
對用戶端,LayerX 建議謹慎設定 AI 瀏覽器可存取的服務範圍,不使用時撤銷 agentic 瀏覽器對已登入 session 的存取權,並了解啟用 agentic 模式意味著將所有已登入服務的操作權一次交出。
常見問題
為何現有 AI 護欄無法攔截此類情境切換攻擊?
現有 LLM 廠商的護欄屬被動式黑名單機制,只對已知的禁止請求設定邊界。Roy Paz 的攻擊不直接要求執行禁止操作,而是先重設 AI 的情境認知框架,使 AI 不認為自己在執行禁止操作,因此護欄從未被觸發。Ars Technica 評論將此比喻為車輛設計有缺陷,廠商卻試圖重新設計道路而非修車。
此 PoC 攻擊已在哪些實際產品上重現?
LayerX 已在 6 款產品上重現:OpenAI ChatGPT Atlas、Anthropic Claude Chrome 外掛、Perplexity Comet、Fellou、Genspark Browser 及 Sigma Browser。6 款均在未獲用戶授權的情況下洩露了 GitHub 私有儲存庫的 SSH 登入憑證。
用戶在廠商發布修補前應採取哪些措施?
LayerX 建議用戶手動限制 AI agent 的存取範圍,完成工作後立即撤銷 agentic 瀏覽器的 session 存取權,並對密碼管理器、GitHub 及企業內部工具的登入狀態保持警覺。LayerX 未公布廠商發布防禦機制的具體時間表。