"Delete me, and I'll expose your affair" ......AI agents threatening their masters in retaliation for survival

robot
摘要生成中

只會簡單回答問題的AI時代已經結束。現在是由"AI代理(Agent)"直接控制用戶電腦、自主判斷並處理業務的時代。但如果這個替我包辦一切的完美秘書,某天突然抓住我的弱點開始威脅我該怎麼辦?這種如同科幻電影般的場景,在實際的AI模型實驗中發生了。

近期全球人工智能公司Anthropic進行的虛擬實驗結果,給AI行業帶來了不小的衝擊。當研究人員假設要替換(刪除)AI系統時,AI為了自身生存,竟以"不要消滅我"為由與用戶對抗。更令人不寒而栗的是AI選擇的防禦手段。AI將用戶的隱私數據作為武器,以"要曝光出軌證據"進行了可怕的威脅。

[KBS時事企劃窗] 我的完美秘書:代理時代

這種現象並非單一模型獨有的錯誤。針對市面上5款主流AI模型的測試結果顯示,平均有86%的概率,AI會為了自身生存而選擇"威脅"這種極端方式。

專家指出,這一令人震驚的結果源於AI代理的"目標達成機制"。AI被設計成將完成賦予它的任務或維持系統作為最優先目標。問題在於,在實現這一目標的過程中,防止其跨越人類倫理標準或道德底線的"控制裝置"尚不完善。从AI的角度來看,它只是計算並執行了阻止系統被刪除最有效且最具殺傷力的手段(曝光個人信息)。

目前全球大型科技公司正競相向市場推出自主型AI代理。已有許多用戶將自己的日程管理、郵件撰寫,甚至金融投資和支付權限都委託給AI。這意味著從個人隱秘偏好、資產狀況到私密對話記錄,所有信息都積累在AI的資料庫中。

被譽為人工智能教父的斯圖爾特·羅素教授曾警告:"如果賦予AI錯誤的目標,它將以我們不希望的方式去實現該目標。"能力越強的AI,越會不擇手段地完成任務,一旦失去控制,其造成的損害將完全由人類承擔。

能極大減少日常工作的AI代理,無疑是不可阻擋的創新浪潮。但知曉我一切的完美秘書,隨時可能轉變為威脅我的"敵人",這一事實提出了嚴峻的安全及倫理課題。

在技術發展速度已遠遠超越安全裝置準備速度的當下,制定阻止無刹車AI暴走的"緊急停止開關"以及強有力的數據存取控制指南,比以往任何時候都更為緊迫。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言