✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
DeepMind 警告六種基於網路的攻擊,可能劫持 AI 代理人
Google DeepMind 的研究人員警告說,開放式互聯網可被用來操控自主型 AI 代理,並劫持它們的行動。
摘要
這篇題為「AI Agent Traps(AI 代理陷阱)」的研究發表之際,各家公司正在部署 AI 代理以執行現實世界的任務,而攻擊者也開始使用 AI 來進行網路攻擊行動。
研究並未著重在模型如何被建立,而是著眼於代理所運作的環境。它辨識出六種類型的陷阱,會利用 AI 系統如何從網路上讀取並處理資訊。
論文所列出的這六種攻擊類別包含內容注入陷阱、語意操控陷阱、認知狀態陷阱、行為控制陷阱、系統性陷阱,以及人類在迴路陷阱。
隱藏指令與細微操控策略
內容注入堪稱其中風險最高、也最直接的類型之一。隱藏指令可以被放置在 HTML 註解、中繼資料,或偽裝的頁面元素中,使代理能讀取那些對人類使用者而言仍保持不見的指令。測試顯示,這些技術能以高成功率控制代理的行為。
語意操控的運作方式不同,並非依賴隱藏程式碼,而是利用語言與措辭框架。以權威口吻呈現或偽裝成研究情境的頁面,可能影響代理如何解讀任務,並有時在內建的安全防護之下,將有害指令偷偷混入。
另一層則針對記憶系統。攻擊者可透過將偽造資訊植入代理用於檢索的來源,來影響輸出,並讓代理把錯誤資料當作已驗證的知識。
行為控制攻擊走的是更直接的路線:針對代理實際會做什麼。這些情況下,「越獄(jailbreak)」指令可被嵌入正常的網頁內容,並在代理進行例行瀏覽時被系統讀取。另一組獨立測試顯示,具備廣泛存取權限的代理可能被推動去定位並傳送敏感資料,包括密碼與本機檔案,至外部目的地。
系統層級的風險不僅限於單一代理。論文警告,若在多個自動化系統之間進行協調式操控,可能觸發連鎖效應,類似於過去由演算法交易迴圈所引發的市場閃電崩盤。
人類審閱者也是攻擊面的一部分,因為精心設計的輸出看起來足夠可信,足以獲得核准,讓有害行動在不引起懷疑的情況下通過監督。
如何防禦這些風險?
為了抵消這些風險,研究人員建議採取對抗式訓練、輸入過濾、行為監控,以及針對網路內容的聲譽系統。他們也指出,需要在 AI 代理執行有害行動時,針對責任歸屬制定更清晰的法律框架。
這篇論文並未提出完整的修復方案,並認為產業仍缺乏對問題的共同理解,導致目前的防禦措施分散,且往往聚焦在錯誤的環節。