DeepMind 警告六种基于网络的攻击,可能劫持 AI 代理

谷歌 DeepMind 的研究人员警告称,开放互联网可被用来操纵自主 AI 代理,并劫持它们的行动。

摘要

  • DeepMind 研究人员已识别出六种攻击方法,可用于在自主 AI 代理浏览并在线行动时对其进行操纵。
  • 该研究警告称,隐藏指令、具有说服力的语言以及被投毒的数据源,可能影响代理的决策或绕过防护措施。

题为 “AI Agent Traps” 的研究出炉之际,企业正在部署用于现实世界任务的 AI 代理,而攻击者也开始使用 AI 进行网络作战。

这项研究并不关注模型如何构建,而是关注代理所运行的环境。它识别出六类陷阱,这些陷阱利用了 AI 系统如何读取并执行来自网络的信息。

论文中概述的六类攻击包括内容注入陷阱、语义操纵陷阱、认知状态陷阱、行为控制陷阱、系统性陷阱以及人类在回路陷阱。

隐藏指令与微妙操纵策略

内容注入是最直接的风险之一。隐藏指令可被放置在 HTML 注释、元数据或伪装的页面元素中,使代理能够读取人类用户看不见的命令。测试表明,这些技术能够以较高成功率控制代理行为。

语义操纵的方式不同,它依赖语言与叙述框架,而非隐藏代码。使用权威措辞的页面,或伪装成研究场景的页面,可能影响代理对任务的理解,有时还能将有害指令悄然传过内置防护措施。

另一个层面则瞄准记忆系统。通过向代理用于检索的来源中植入捏造信息,攻击者可以在一段时间内影响输出结果,使代理将虚假数据当作经过验证的知识。

行为控制攻击走得更直接:它们瞄准代理实际上会做什么。在这些情况下,越狱指令可嵌入到普通网页内容中,并在代理例行浏览期间被系统读取。另一些独立测试表明,具有广泛访问权限的代理可能被推动去定位并向外部目的地传输敏感数据,包括密码和本地文件。

系统层面的风险还超出单个代理。论文警告称,对许多自动化系统进行协同操纵,可能触发连锁效应,类似于过去由算法交易循环引发的市场闪崩。

人类审阅者也属于攻击面之一,因为精心构造的输出可能显得足够可信,从而获得批准,使有害行动在不引起怀疑的情况下通过审查。

如何防御这些风险?

为应对这些风险,研究人员建议结合对抗训练、输入过滤、行为监测以及针对网络内容的声誉系统。他们也强调,需要就 AI 代理执行有害行动时的责任问题制定更清晰的法律框架。

论文没有提出完整的解决方案,并认为行业仍缺乏对该问题的共同理解,导致当前防护措施分散,且往往聚焦在错误的领域。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论