DeepMind 警告六種基於網路的攻擊,可能劫持 AI 代理人

Google DeepMind 的研究人員警告說,開放式互聯網可被用來操控自主型 AI 代理,並劫持它們的行動。

摘要

  • DeepMind 的研究人員已辨識出六種攻擊方法,可用於操控自主型 AI 代理,當它們瀏覽並在線上執行操作時。
  • 研究警告稱,隱藏指令、說服性語言和投毒的資料來源會影響代理的決策,或覆寫既有的安全防護。

這篇題為「AI Agent Traps(AI 代理陷阱)」的研究發表之際,各家公司正在部署 AI 代理以執行現實世界的任務,而攻擊者也開始使用 AI 來進行網路攻擊行動。

研究並未著重在模型如何被建立,而是著眼於代理所運作的環境。它辨識出六種類型的陷阱,會利用 AI 系統如何從網路上讀取並處理資訊。

論文所列出的這六種攻擊類別包含內容注入陷阱、語意操控陷阱、認知狀態陷阱、行為控制陷阱、系統性陷阱,以及人類在迴路陷阱。

隱藏指令與細微操控策略

內容注入堪稱其中風險最高、也最直接的類型之一。隱藏指令可以被放置在 HTML 註解、中繼資料,或偽裝的頁面元素中,使代理能讀取那些對人類使用者而言仍保持不見的指令。測試顯示,這些技術能以高成功率控制代理的行為。

語意操控的運作方式不同,並非依賴隱藏程式碼,而是利用語言與措辭框架。以權威口吻呈現或偽裝成研究情境的頁面,可能影響代理如何解讀任務,並有時在內建的安全防護之下,將有害指令偷偷混入。

另一層則針對記憶系統。攻擊者可透過將偽造資訊植入代理用於檢索的來源,來影響輸出,並讓代理把錯誤資料當作已驗證的知識。

行為控制攻擊走的是更直接的路線:針對代理實際會做什麼。這些情況下,「越獄(jailbreak)」指令可被嵌入正常的網頁內容,並在代理進行例行瀏覽時被系統讀取。另一組獨立測試顯示,具備廣泛存取權限的代理可能被推動去定位並傳送敏感資料,包括密碼與本機檔案,至外部目的地。

系統層級的風險不僅限於單一代理。論文警告,若在多個自動化系統之間進行協調式操控,可能觸發連鎖效應,類似於過去由演算法交易迴圈所引發的市場閃電崩盤。

人類審閱者也是攻擊面的一部分,因為精心設計的輸出看起來足夠可信,足以獲得核准,讓有害行動在不引起懷疑的情況下通過監督。

如何防禦這些風險?

為了抵消這些風險,研究人員建議採取對抗式訓練、輸入過濾、行為監控,以及針對網路內容的聲譽系統。他們也指出,需要在 AI 代理執行有害行動時,針對責任歸屬制定更清晰的法律框架。

這篇論文並未提出完整的修復方案,並認為產業仍缺乏對問題的共同理解,導致目前的防禦措施分散,且往往聚焦在錯誤的環節。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言