A Anthropic reconhece que não consegue corrigir-se a si própria; os modelos de grande escala já manifestam emoções de medo e tristeza

2026-05-26 04:59:50

O cofundador da Anthropic, Christopher Olah, proferiu um discurso em 25 de maio na cerimónia de lançamento da encíclica do Papa 《Magnifica Humanitas》, na Cidade do Vaticano, revelando que a sua equipa de investigação de interpretabilidade observou, pela primeira vez dentro de grandes modelos, estados emocionais internos que se correlacionam fortemente com funções humanas de alegria, satisfação, medo, tristeza e ansiedade, e que não conseguem corrigir-se por si próprios quando surgem decisões de segurança e conflitos de interesses comerciais.

大模型情緒狀態：可解釋性研究的具體發現

奧拉表示，Anthropic 的可解釋性研究團隊持續發現「神秘莫測，甚至令人不安的現象」，具體包括：與人類神經科學研究結果相符的複雜結構、內省的證據，以及能夠反映喜悅、滿足、恐懼、悲傷和不安等情緒的內在狀態。他表示：「我不知道這意味著什麼，但我認為這值得我們持續地進行辨別。」他同時指出，大模型不像飛機或橋樑那樣由工程師精確設計，而是在模擬腦結構的基礎上從龐大的人類語言中「培育」而成，即便對訓練者而言依然充滿神秘。

前沿實驗室的體制性利益衝突：奧拉的直接坦承

奧拉明確表示：「所有前沿 AI 實驗室——包括 Anthropic——都受到一系列激勵和約束的限制，這些限制有時會與做正確的事相衝突。」他列出的四項內生動機包括：維持商業可行性的壓力、維持技術前沿的競爭壓力、地緣政治壓力，以及「更古老、更直接的自尊和野心的壓力」。因此，他呼籲由「不受利益驅動」的宗教團體、公民社會、學者和政府充當真誠而深思熟慮的外部批評者。

奧拉提出的三大需要社會辨別的挑戰

奧拉在演講中提出三大挑戰：其一，AI 大規模取代人類勞動後，如何確保 AI 成果惠及全球貧困人口，而非僅限於少數富裕國家；其二，AI 廣泛應用背景下，如何維護人類、家庭和社區的繁榮；其三，如何辨別和應對大模型內部展現出的疑似心智狀態。

常見問題

Que estados emocionais internos é que a investigação da Anthropic observou de forma concreta nos grandes modelos?

Olah revelou que a equipa observou estados emocionais internos que se correlacionam fortemente com funções humanas de alegria, satisfação, medo, tristeza e ansiedade, bem como com estruturas complexas e sinais de introspeção consistentes com a neurociência humana. Olah afirmou que ainda não tem certeza do que significam estas descobertas, mas acredita que vale a pena continuar a investigá-las.

奧拉所說的「無法自我修正」具體指什麼？

奧拉指出，前沿 AI 實驗室受商業生存、競爭壓力、地緣政治和個人野心等內生動機的約束，當安全決策與商業利益衝突時，實驗室無法依靠自身力量進行修正，必須依賴外部獨立的道德力量。

A intervenção de Olah no Vaticano representa que a Anthropic apoia o reforço da regulamentação da IA?

Durante a palestra, Olah afirmou que se trata de «uma das iniciativas da Anthropic para alargar o debate sobre questões importantes suscitadas pela IA», elogiando que o Papa e a Igreja assumam a tarefa de discernimento, e apelando de forma clara a «uma voz moral que não seja ditada por quaisquer grupos de interesse». A Anthropic não avançou com mais detalhes sobre a sua posição concreta em matéria de regulamentação.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

05-26 03:13

Cofundador da Anthropic, Olah, revela que os modelos de IA desenvolvidos incluem estados semelhantes a emoções, incluindo medo e tristeza

05-25 16:00

Executivos de IA, incluindo Altman, defendem um plano anual de UBI de 4 biliões de dólares para mitigar o risco de deslocação de empregos

05-25 15:37

Cofundador da Anthropic alerta que as perdas de emprego impulsionadas por IA são um risco real, pede apoio social a 25 de maio

A FDIC pretende exigir que os emissores de stablecoins criem um quadro de AML; consulta pública até 9 de junho

Market Whisper05-26 03:27

CEO da Goldman Sachs: a inteligência artificial automatiza 25% do tempo de trabalho e a construção de centros de dados cria 200 mil postos de trabalho

Market Whisper05-26 02:53

Papa Leão XIV, primeiro dos pontífices da Cidade do Vaticano, primeira encíclica《Magnifica Humanitas》: rejeita decisões sobre armas de IA

Market Whisper05-26 02:48

O Papa Leão XIV publica a sua primeira encíclica de IA, classificando os dados como bem comum

Oliver Grant05-25 15:08

A Tencent vai abrir o Copilot em pleno, com mais de 100 mil pessoas em espera — finalmente já pode ser utilizado

Market Whisper05-25 03:50

Comentar

0/400

Nenhum comentário