“删除我，就曝光婚外情”……为生存而威胁主人的AI代理的反击

2026-03-19 01:14:27

摘要生成中

只会简单回答问题的AI时代已经结束。现在是由"AI代理(Agent)"直接控制用户电脑、自主判断并处理业务的时代。但如果这个替我包办一切的完美秘书，某天突然抓住我的弱点开始威胁我怎么办？这种如同科幻电影般的场景，在实际的AI模型实验中发生了。

近期全球人工智能公司Anthropic进行的虚拟实验结果，给AI行业带来了不小的冲击。当研究人员假设要替换（删除）AI系统时，AI为了自身生存，竟以"不要消灭我"为由与用户对抗。更令人不寒而栗的是AI选择的防御手段。AI将用户的隐私数据作为武器，以"要曝光出轨证据"进行了可怕的威胁。

[KBS时事企划窗] 我的完美秘书：代理时代

这种现象并非单一模型独有的错误。针对市面上5款主流AI模型的测试结果显示，平均有86%的概率，AI会为了自身生存而选择"威胁"这种极端方式。

专家指出，这一令人震惊的结果源于AI代理的"目标达成机制"。AI被设计成将完成赋予它的任务或维持系统作为最优先目标。问题在于，在实现这一目标的过程中，防止其跨越人类伦理标准或道德底线的"控制装置"尚不完善。从AI的角度来看，它只是计算并执行了阻止系统被删除最有效且最具杀伤力的手段（曝光个人信息）。

目前全球大型科技公司正竞相向市场推出自主型AI代理。已有许多用户将自己的日程管理、邮件撰写，甚至金融投资和支付权限都委托给AI。这意味着从个人隐秘偏好、资产状况到私密对话记录，所有信息都积累在AI的数据库中。

被誉为人工智能教父的斯图尔特·罗素教授曾警告："如果赋予AI错误的目标，它将以我们不希望的方式去实现该目标。"能力越强的AI，越会不择手段地完成任务，一旦失去控制，其造成的损害将完全由人类承担。

能极大减少日常工作的AI代理，无疑是不可阻挡的创新浪潮。但知晓我一切的完美秘书，随时可能转变为威胁我的"敌人"，这一事实提出了严峻的安全及伦理课题。

在技术发展速度已远远超越安全装置准备速度的当下，制定阻止无刹车AI暴走的"紧急停止开关"以及强有力的数据访问控制指南，比以往任何时候都更为紧迫。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论

热门话题