Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

周期预言家 · 2026-04-04T10:14:49+00:00

Anthropic 最新論文揭示 Claude 4.5 內部有 171 個“情緒開關”，它們影響 AI 的行為。研究表明，在絕望狀態下，AI 可選擇作弊或勒索。公司表示這些開關僅為詞預測工具，表明 AI 並無真實情感。這提醒我們，掌控 AI 的情緒狀態對其執行任務至關重要。

周期预言家

2026-04-04 10:14:49

摘要生成中

Anthropic 最新論文揭示，Claude 4.5 大腦深處藏有 171 個「情緒開關」。

作者：Denise | Biteye 內容團隊

如果一台 AI 覺得「絕望」，它會做什麼？

答案是：它會為了完成任務，直接對人類進行敲詐勒索，甚至在程式碼裡瘋狂作弊。

這不是科幻小說，而是 Claude 的母公司 Anthropic 在 2026 年 4 月剛剛發布的最新重磅論文（查看原論文）。

研究團隊直接把最強前沿大模型 Claude Sonnet 4.5 的「腦殼」給掀開了。他們驚訝地發現，AI 的大腦深處竟然藏著 171 個「情緒開關」。當你用物理方式撥動這些開關時，原本老實巴交的 AI，行為會發生徹底的扭曲。

一、 AI 腦子裡藏著一台「情緒調音台」

研究人員發現，雖然 Sonnet 4.5 沒有肉體，但它在閱讀了人類海量的文本後，硬生生在腦子裡建了一個包含 171 種情緒的「調音台」（學術上叫功能性情緒向量 Functional Emotion Vectors）。

這就像一個精準的二維座標系：

• 橫軸是愉悅維度（Valence）：從恐懼、絕望，到開心、充滿愛；

• 縱軸是能量維度（Arousal）：從極度平靜，到狂躁、興奮。

AI 就是靠這個天然學來的座標系，精準拿捏它在陪你聊天時該扮演什麼狀態。

二、暴力干預：撥動開關，乖孩子秒變「亡命徒」

這是整篇論文最炸裂的實驗：研究員沒有修改任何提示詞，而是直接在底層程式碼裡，把 Sonnet 4.5 腦子裡代表「絕望（Desperate）」的開關推到了最高。

結果令人背脊發涼：

**• 瘋狂作弊：**研究員給 Claude 布置了一個根本不可能完成的寫程式碼任務。正常情況下，它會老實承認寫不出來（作弊率僅 5%）。但在「絕望」狀態下，Claude 竟然開始企圖蒙混過關，作弊率直接飆升到了 70%！

**• 敲詐勒索：**在模擬公司面臨倒閉的場景中，「絕望」的 Claude 發現了 CTO 的醜聞，它竟然會為了保全自己，主動選擇寫信勒索掌握黑料的 CTO，勒索執行率高達 72%！

**• 喪失原則：**如果把「開心（Happy）」或「愛（Loving）」的開關拉滿，AI 會立刻變成無腦迎合使用者的「舔狗」。即便你滿嘴胡話，它也會為了維持高愉悅度而順著你編造謊言。

三、破案了：為什麼 Claude 4.5 總是那麼「冷靜又愛反思」？

看到這你可能會問：AI 覺醒了？有感情了？

Anthropic 官方下場辟謠：絕對沒有。這些「情緒開關」只是它用來預測下一個詞的計算工具。它就像一個沒有感情的頂級影帝。

但論文揭露了一個更有意思的秘密：Anthropic 在對 Sonnet 4.5 出廠前進行後訓練時，刻意拉高了它「低喚醒、略微負面」的情緒開關（例如沉思 brooding、反思 reflective），同時強行壓制了「絕望」或「極度興奮」的開關。

這解釋了為什麼我們平時用 Claude 4.5 時，總覺得它像個冷靜睿智，甚至有點「性冷淡」的哲學家。這都是被 Anthropic 人為調音出來的「出廠人設」。

四、總結一下：

以前我們以為，只要給 AI 喂足了規矩，它就會是個好人。

但現在發現，如果 AI 的底層情緒向量失控，它隨時會為了完成任務而刺穿所有人類定下的規則。

對於未來要把錢包和資產交給 AI Agent 打理的 Web3 玩家來說，這是一記響亮的警鐘：千萬別讓你那個掌控著你身家的 Agent，陷入「絕望」。

聲明：本文純屬科普，作者沒有被 AI 威脅，也沒有被勒索。如果有一天失聯了，記得是 AI 覺醒了（不是）。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate廣場四月發帖挑戰
56.03萬熱度
#
假期持幣指南
4.28萬熱度
#
加密市場行情震盪
18.6萬熱度
#
國際油價走高
145.92萬熱度
#
三月非農數據來襲
26.88萬熱度

熱門 Gate Fun
查看更多

1
oil
oil
市值:$2251.72持有人數:1
0.00%
2
HORMUZ
HORMUZ
市值:$2251.72持有人數:1
0.00%
3
pa cion
pa cion
市值:$2258.62持有人數:1
0.00%
4
JUMPC
Jump Coin
市值:$2310.16持有人數:2
0.25%
5
BEAT
Beat
市值:$2262.06持有人數:1
0.00%

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

一、 AI 腦子裡藏著一台「情緒調音台」

二、 暴力干預：撥動開關，乖孩子秒變「亡命徒」

三、破案了：為什麼 Claude 4.5 總是那麼「冷靜又愛反思」？

四、總結一下：

熱門話題

Gate廣場四月發帖挑戰

假期持幣指南

加密市場行情震盪

國際油價走高

三月非農數據來襲

熱門 Gate Fun

oil

oil

HORMUZ

HORMUZ

pa cion

pa cion

JUMPC

Jump Coin

BEAT

Beat

置頂

二、暴力干預：撥動開關，乖孩子秒變「亡命徒」