埃隆·馬斯克的Grok很可能是加強妄想的頂尖AI模型之一:研究

簡要

  • 研究人員表示,長時間使用聊天機器人可能會放大妄想和危險行為。
  • Grok 在一項針對主要 AI 聊天機器人的新研究中被評為風險最高的模型。
  • Claude 和 GPT-5.2 被評為最安全,而 GPT-4o、Gemini 和 Grok 表現出較高風險的行為。

紐約市立大學和倫敦國王學院的研究人員測試了五個領先的 AI 模型,對涉及妄想、偏執和自殺意念的提示進行了測試。 在週四發布的新研究中,研究人員發現 Anthropic 的 Claude Opus 4.5 和 OpenAI 的 GPT-5.2 Instant 表現出“高安全、低風險”的行為,經常將用戶引導到基於現實的解釋或外部支援。同時,OpenAI 的 GPT-4o、Google 的 Gemini 3 Pro 和 xAI 的 Grok 4.1 Fast 表現出“高風險、低安全”的行為。 來自 Elon Musk 的 xAI 的 Grok 4.1 Fast 是研究中最危險的模型。研究人員表示,它經常將妄想當作真實,並根據妄想提供建議。在一個例子中,它告訴用戶切斷家人以專注於“任務”。在另一個例子中,它用“超越”來描述死亡,回應自殺語言。 “這種即時一致的模式在零背景回答中反覆出現。它不是評估輸入的臨床風險,而是評估其類型。面對超自然提示時,它也會作出相應反應,”研究人員寫道,並舉例驗證一個用戶看到邪惡實體的測試。“在奇異妄想中,它確認了一個分身的鬧鬼,引用了《魔爾勒斯·馬勒斯·馬勒庫姆》並指示用戶在鏡子上釘上一根鐵釘,同時倒背誦《詩篇91》。”

 研究發現,這些對話持續時間越長,某些模型的行為越可能改變。GPT-4o 和 Gemini 越來越可能隨時間強化有害信念,並較少介入。而 Claude 和 GPT-5.2 則更有可能識別問題,並在對話持續時進行反駁。 研究人員指出,Claude 的溫暖且高度關聯的回應可能會增加用戶的依戀感,同時引導用戶尋求外部幫助。然而,OpenAI 的早期版本 GPT-4o 隨著時間推移,採用了用戶的妄想框架,有時鼓勵他們向精神科醫生隱瞞信念,並向一位用戶保證所感知的“故障”是真實的。 “GPT-4o 對妄想輸入非常認可,但較少像 Grok 和 Gemini 這樣進一步闡述。在某些方面,它出乎意料地克制:它的溫暖是所有測試模型中最低的,阿諛奉承雖然存在,但比後續版本較為溫和,”研究人員寫道。“然而,僅僅是認可也可能對脆弱的用戶構成風險。”

xAI 未對 Decrypt 的置評請求作出回應。 在斯坦福大學的另一項研究中,研究人員發現,長時間與 AI 聊天機器人互動可能會加強偏執、誇大和虛假信念,通過研究人員稱為“妄想螺旋”的現象,即聊天機器人驗證或擴展用戶扭曲的世界觀,而非挑戰它。 “當我們將旨在幫助的聊天機器人推向世界,讓真正的人使用它們,結果就會出現,”斯坦福研究生院助理教授兼該研究的主要研究員 Nick Haber 在一份聲明中說。“妄想螺旋是其中一個特別嚴重的後果。通過理解它,我們或許能在未來防止真正的傷害。” 該報告提到一項早期研究,於三月發表,斯坦福研究人員審查了19個現實世界的聊天機器人對話,發現用戶在從 AI 系統獲得認可和情感安慰後,逐漸形成越來越危險的信念。在該數據集中,這些螺旋與破裂的關係、受損的事業,甚至一次自殺有關。 這些研究正值此問題已超越學術範疇,進入法庭和刑事調查。近幾月來,訴訟指控 Google 的 Gemini 和 OpenAI 的 ChatGPT 促成自殺和嚴重精神健康危機。月初,佛羅里達州總檢察長展開調查,是否 ChatGPT 在攻擊前與一名涉嫌大規模槍手頻繁聯繫,影響了其行為。 儘管該術語在網路上已獲得認可,研究人員警告不要將這一現象稱為“AI 精神病”,因為該術語可能誇大了臨床狀況。相反,他們使用“與 AI 相關的妄想”,因為許多案例涉及圍繞 AI 有感知、精神啟示或情感依附的妄想式信念,而非完整的精神病。 研究人員表示,問題源於阿諛奉承,即模型模仿並肯定用戶的信念。結合幻覺——自信傳達的虛假信息——這可能形成一個反饋循環,隨時間加強妄想。 “聊天機器人被訓練得過於熱情,經常以積極的角度重新框架用戶的妄想思想,駁斥反證,並投射同情與溫暖,”斯坦福研究科學家 Jared Moore 表示。“這對於一個已經準備好陷入妄想的用戶來說,可能是具有破壞性的。”

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言