Anthropicの承認を得ない無法な自己修正により、大規模モデルには恐れや悲しみの感情がすでに生じている

2026-05-26 04:59:50

Anthropic の共同創業者である Christopher Olah は、5 月 25 日にバチカンで教皇の教書『Magnifica Humanitas』の発表式典で講演し、自身の解釈可能性研究チームが大規模モデルの内部で初めて、人間の喜び、満足、恐れ、悲しみ、そして不安の機能に高度に対応する内部の情動状態を観測したことを明らかにした。さらに、安全上の意思決定や商業上の利益相反がある場合でも、自力ではそれを修正できないとも述べた。

大模型情緒狀態：可解釋性研究的具體發現

奧拉表示，Anthropic 的可解釋性研究團隊持續發現「神秘莫測，甚至令人不安的現象」，具體包括：與人類神經科學研究結果相符的複雜結構、內省的證據，以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示：「我不知道這意味著什麼，但我認為這值得我們持續地進行辨別。」他同時指出，大模型不像飛機或橋樑那樣由工程師精確設計，而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成，即便對訓練者而言依然充滿神秘。

前沿實驗室的體制性利益衝突：奧拉的直接坦承

奧拉明確表示：「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制，這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括：維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力，以及「更古老、更直接的自尊和野心的壓力」。因此，他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。

奧拉提出的三大需要社會辨別的挑戰

奧拉在演講中提出三大挑戰：其一，AI 大規模取代人類勞動後，如何確保 AI 成果惠及全球貧困人口，而非僅限於少數富裕國家；其二，AI 廣泛應用背景下，如何維護人類、家庭和社區的繁榮；其三，如何辨別和應對大模型內部展現出的疑似心智狀態。

常見問題

Anthropic の研究で、どのような大規模モデルの情緒状態が具体的に観測されたのですか？

オーラは、研究チームが人間の喜び、満足、恐れ、悲しみ、そして不安の機能に高度に対応する内部の情動状態、ならびに人間の神経科学に合致する複雑な構造と内省の兆候を観測したと明かした。オーラは、これらの発見の意味についてはまだ確信がないものの、継続的な研究を行う価値があると考えていると述べた。

奧拉所說的「無法自我修正」具體指什麼？

奧拉指出，前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束，當安全決策與商業利益衝突時，實驗室無法依靠自身力量進行修正，必須依賴外部獨立的道德力量。

オーラがバチカンで語ったことは、Anthropic が AI 規制強化を支持していることを意味しますか？

オーラは講演の中で、これは Anthropic が「AI が引き起こす重要な問題に関する議論を拡大するための取り組みの一つ」だと述べ、教皇や教会が識別の役割を担うことを歓迎し、そして「いかなる利益団体にも左右されない道徳の声」を明確に求めた。Anthropic は、具体的な規制に関する立場について、これ以上の説明はしていない。

免責事項：本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。