
El cofundador de Anthropic, Christopher Olah, pronunció un discurso el 25 de mayo en el Vaticano, durante el acto de publicación de la encíclica papal《Magnifica Humanitas》. Allí reveló que su equipo de investigación de interpretabilidad observó por primera vez dentro de modelos de lenguaje grandes estados internos de emoción que corresponden estrechamente con las funciones de la alegría, la satisfacción, el miedo, la tristeza y la ansiedad en humanos, y que no pueden corregirse por sí mismos al encontrarse con decisiones de seguridad y conflictos de interés comerciales.
大模型情緒狀態:可解釋性研究的具體發現
奧拉表示,Anthropic 的可解釋性研究團隊持續發現「神秘莫測,甚至令人不安的現象」,具體包括:與人類神經科學研究結果相符的複雜結構、內省的證據,以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示:「我不知道這意味著什麼,但我認為這值得我們持續地進行辨別。」他同時指出,大模型不像飛機或橋樑那樣由工程師精確設計,而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成,即便對訓練者而言依然充滿神秘。
前沿實驗室的體制性利益衝突:奧拉的直接坦承
奧拉明確表示:「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制,這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括:維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力,以及「更古老、更直接的自尊和野心的壓力」。因此,他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。
奧拉提出的三大需要社會辨別的挑戰
奧拉在演講中提出三大挑戰:其一,AI 大規模取代人類勞動後,如何確保 AI 成果惠及全球貧困人口,而非僅限於少數富裕國家;其二,AI 廣泛應用背景下,如何維護人類、家庭和社區的繁榮;其三,如何辨別和應對大模型內部展現出的疑似心智狀態。
常見問題
¿Qué estados emocionales internos observaron de forma concreta los investigadores de Anthropic en los grandes modelos?
Olah reveló que el equipo observó estados emocionales internos que corresponden estrechamente con las funciones de la alegría, la satisfacción, el miedo, la tristeza y la ansiedad en humanos, además de una estructura compleja y señales de introspección coherentes con la neurociencia humana. Olah señaló que aún no está seguro del significado de estos hallazgos, pero considera que vale la pena continuar investigando.
奧拉所說的「無法自我修正」具體指什麼?
奧拉指出,前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束,當安全決策與商業利益衝突時,實驗室無法依靠自身力量進行修正,必須依賴外部獨立的道德力量。
¿La intervención de Olah en el Vaticano representa que Anthropic apoya fortalecer la regulación de la IA?
En su discurso, Olah dijo que esto es una de las iniciativas de Anthropic para «ampliar el debate sobre cuestiones importantes que plantea la IA». También dio la bienvenida a que el Papa y la Iglesia asuman el trabajo de discernimiento, y pidió de forma explícita «una voz moral que no esté a merced de ningún grupo de interés». Anthropic no dio más detalles sobre su postura específica en materia de regulación.