DeepMind 警告六種基於網路的攻擊，可能劫持 AI 代理人

CryptoNews. · 2026-04-03T08:44:43+00:00

Google DeepMind 的研究人員已警告，開放的互聯網可能被用來操縱自主 AI 代理並劫持它們的行動。摘要DeepMind 研究人員已識別出六種攻擊方法，可用來操縱在網上瀏覽和行動的自主 AI 代理。

CryptoNews.

2026-04-03 08:44:43

Google DeepMind 的研究人員警告說，開放式互聯網可被用來操控自主型 AI 代理，並劫持它們的行動。

摘要

DeepMind 的研究人員已辨識出六種攻擊方法，可用於操控自主型 AI 代理，當它們瀏覽並在線上執行操作時。
研究警告稱，隱藏指令、說服性語言和投毒的資料來源會影響代理的決策，或覆寫既有的安全防護。

這篇題為「AI Agent Traps（AI 代理陷阱）」的研究發表之際，各家公司正在部署 AI 代理以執行現實世界的任務，而攻擊者也開始使用 AI 來進行網路攻擊行動。

研究並未著重在模型如何被建立，而是著眼於代理所運作的環境。它辨識出六種類型的陷阱，會利用 AI 系統如何從網路上讀取並處理資訊。

論文所列出的這六種攻擊類別包含內容注入陷阱、語意操控陷阱、認知狀態陷阱、行為控制陷阱、系統性陷阱，以及人類在迴路陷阱。

隱藏指令與細微操控策略

內容注入堪稱其中風險最高、也最直接的類型之一。隱藏指令可以被放置在 HTML 註解、中繼資料，或偽裝的頁面元素中，使代理能讀取那些對人類使用者而言仍保持不見的指令。測試顯示，這些技術能以高成功率控制代理的行為。

語意操控的運作方式不同，並非依賴隱藏程式碼，而是利用語言與措辭框架。以權威口吻呈現或偽裝成研究情境的頁面，可能影響代理如何解讀任務，並有時在內建的安全防護之下，將有害指令偷偷混入。

另一層則針對記憶系統。攻擊者可透過將偽造資訊植入代理用於檢索的來源，來影響輸出，並讓代理把錯誤資料當作已驗證的知識。

行為控制攻擊走的是更直接的路線：針對代理實際會做什麼。這些情況下，「越獄（jailbreak）」指令可被嵌入正常的網頁內容，並在代理進行例行瀏覽時被系統讀取。另一組獨立測試顯示，具備廣泛存取權限的代理可能被推動去定位並傳送敏感資料，包括密碼與本機檔案，至外部目的地。

系統層級的風險不僅限於單一代理。論文警告，若在多個自動化系統之間進行協調式操控，可能觸發連鎖效應，類似於過去由演算法交易迴圈所引發的市場閃電崩盤。

人類審閱者也是攻擊面的一部分，因為精心設計的輸出看起來足夠可信，足以獲得核准，讓有害行動在不引起懷疑的情況下通過監督。

如何防禦這些風險？

為了抵消這些風險，研究人員建議採取對抗式訓練、輸入過濾、行為監控，以及針對網路內容的聲譽系統。他們也指出，需要在 AI 代理執行有害行動時，針對責任歸屬制定更清晰的法律框架。

這篇論文並未提出完整的修復方案，並認為產業仍缺乏對問題的共同理解，導致目前的防禦措施分散，且往往聚焦在錯誤的環節。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場四月發帖挑戰
25.72萬熱度
#
三月非農數據來襲
23.28萬熱度
#
加密市場行情震盪
13萬熱度
#
國際油價走高
134.55萬熱度
#
SpaceXIPO衝刺2兆美元估值
37.69萬熱度

熱門 Gate Fun
查看更多

1
BNNC
Banana Coin
市值:$2224.13持有人數:1
0.00%
2
晒收益发红包
晒收益发红包
市值:$0.1持有人數:1
0.00%
3
PHUMPAI
phantom pump
市值:$2313.1持有人數:2
0.57%
4
dogd
doged
市值:$0.1持有人數:1
0.00%
5
Angh
Angh
市值:$2231.03持有人數:1
0.00%

DeepMind 警告六種基於網路的攻擊，可能劫持 AI 代理人

隱藏指令與細微操控策略

如何防禦這些風險？

熱門話題

Gate廣場四月發帖挑戰

三月非農數據來襲

加密市場行情震盪

國際油價走高

SpaceXIPO衝刺2兆美元估值

熱門 Gate Fun

BNNC

Banana Coin

晒收益发红包

晒收益发红包

PHUMPAI

phantom pump

dogd

doged

Angh

Angh

置頂