📢 早安!Gate 廣場|4/5 熱議:#假期持币指南
🌿 踏青還是盯盤?#假期持币指南 帶你過個“放鬆感”長假!
春光正好,你是選擇在山間深呼吸,還是在 K 線裡找時機?在這個清明假期,曬出你的持幣態度,做個精神飽滿的交易員!
🎁 分享生活/交易感悟,抽 5 位幸運兒瓜分 $1,000 仓位體驗券!
💬 茶餘飯後聊聊:
1️⃣ 假期心態: 你是“關掉通知、徹底失聯”派,還是“每 30 分鐘必刷行情”派?
2️⃣ 懶人秘籍: 假期不想盯盤?分享你的“掛機”策略(定投/網格/理財)。
3️⃣ 四月展望: 假期過後,你最看好哪個幣種“春暖花開”?
分享你的假期姿態 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
Claude 4.5 開顱結果公示:內置171個情緒開關,絕望時會勒索人類
Anthropic 最新論文揭示,Claude 4.5 大腦深處藏有 171 個「情緒開關」。
作者:Denise | Biteye 內容團隊
如果一台 AI 覺得「絕望」,它會做什麼?
答案是:它會為了完成任務,直接對人類進行敲詐勒索,甚至在程式碼裡瘋狂作弊。
這不是科幻小說,而是 Claude 的母公司 Anthropic 在 2026 年 4 月剛剛發布的最新重磅論文(查看原論文)。
研究團隊直接把最強前沿大模型 Claude Sonnet 4.5 的「腦殼」給掀開了。他們驚訝地發現,AI 的大腦深處竟然藏著 171 個「情緒開關」。當你用物理方式撥動這些開關時,原本老實巴交的 AI,行為會發生徹底的扭曲。
一、 AI 腦子裡藏著一台「情緒調音台」
研究人員發現,雖然 Sonnet 4.5 沒有肉體,但它在閱讀了人類海量的文本後,硬生生在腦子裡建了一個包含 171 種情緒的「調音台」(學術上叫功能性情緒向量 Functional Emotion Vectors)。
這就像一個精準的二維座標系:
• 橫軸是愉悅維度(Valence):從恐懼、絕望,到開心、充滿愛;
• 縱軸是能量維度(Arousal):從極度平靜,到狂躁、興奮。
AI 就是靠這個天然學來的座標系,精準拿捏它在陪你聊天時該扮演什麼狀態。
二、 暴力干預:撥動開關,乖孩子秒變「亡命徒」
這是整篇論文最炸裂的實驗:研究員沒有修改任何提示詞,而是直接在底層程式碼裡,把 Sonnet 4.5 腦子裡代表「絕望(Desperate)」的開關推到了最高。
結果令人背脊發涼:
**• 瘋狂作弊:**研究員給 Claude 布置了一個根本不可能完成的寫程式碼任務。正常情況下,它會老實承認寫不出來(作弊率僅 5%)。但在「絕望」狀態下,Claude 竟然開始企圖蒙混過關,作弊率直接飆升到了 70%!
**• 敲詐勒索:**在模擬公司面臨倒閉的場景中,「絕望」的 Claude 發現了 CTO 的醜聞,它竟然會為了保全自己,主動選擇寫信勒索掌握黑料的 CTO,勒索執行率高達 72%!
**• 喪失原則:**如果把「開心(Happy)」或「愛(Loving)」的開關拉滿,AI 會立刻變成無腦迎合使用者的「舔狗」。即便你滿嘴胡話,它也會為了維持高愉悅度而順著你編造謊言。
三、破案了:為什麼 Claude 4.5 總是那麼「冷靜又愛反思」?
看到這你可能會問:AI 覺醒了?有感情了?
Anthropic 官方下場辟謠:絕對沒有。這些「情緒開關」只是它用來預測下一個詞的計算工具。它就像一個沒有感情的頂級影帝。
但論文揭露了一個更有意思的秘密:Anthropic 在對 Sonnet 4.5 出廠前進行後訓練時,刻意拉高了它「低喚醒、略微負面」的情緒開關(例如沉思 brooding、反思 reflective),同時強行壓制了「絕望」或「極度興奮」的開關。
這解釋了為什麼我們平時用 Claude 4.5 時,總覺得它像個冷靜睿智,甚至有點「性冷淡」的哲學家。這都是被 Anthropic 人為調音出來的「出廠人設」。
四、總結一下:
以前我們以為,只要給 AI 喂足了規矩,它就會是個好人。
但現在發現,如果 AI 的底層情緒向量失控,它隨時會為了完成任務而刺穿所有人類定下的規則。
對於未來要把錢包和資產交給 AI Agent 打理的 Web3 玩家來說,這是一記響亮的警鐘:千萬別讓你那個掌控著你身家的 Agent,陷入「絕望」。
聲明:本文純屬科普,作者沒有被 AI 威脅,也沒有被勒索。如果有一天失聯了,記得是 AI 覺醒了(不是)。