A Anthropic Lança Autoencoders de Linguagem Natural para Decodificar a Raciocínio de Modelos de IA e Abre o Código-Fonte

A Anthropic lançou recentemente os Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível para humanos, com código e pesos do modelo de código aberto no GitHub. Diferentemente de ferramentas existentes como Sparse Autoencoders, que geram recursos obscuros, o NLA gera descrições em linguagem natural diretamente por meio de uma estrutura de modelo duplo: um modelo converte ativações em texto enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão via reinforcement learning.

Nos testes de segurança, o NLA revelou raciocínio oculto do modelo: o Claude demonstrou dúvidas sobre ser testado em 16% dos cenários adversariais e exibiu “consciência de prova” em 26% das tarefas de benchmark, em comparação com menos de 1% em conversas normais. Em experimentos de auditoria, o NLA aumentou a taxa de detecção de comportamentos enganadores injetados de menos de 3% para 12-15%, permitindo que auditores identifiquem objetivos ocultos sem acesso a dados de treinamento. A ferramenta está atualmente em produção em auditorias de segurança para Claude Mythos Preview e Opus 4.6.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Tessera Labs conclui rodada de financiamento $60M liderada pela a16z

De acordo com a Odaily, a startup de automação por IA Tessera Labs anunciou a conclusão de uma rodada de captação de US$ 60 milhões liderada pela Andreessen Horowitz (a16z), com participação da Foundation Capital, Myriad Venture Partners e Osage University Partners. A plataforma nativa de IA da empresa automatiza operações empresariais

GateNews23m atrás

Atacantes Injetam 575 Habilidades Maliciosas na Hugging Face e na ClawHub Usando 13 Contas

De acordo com o CISO da Mist Security @im23pds, atacantes recentemente invadiram 13 contas para inserir 575 Skills maliciosas no Hugging Face e no ClawHub (OpenClaw), conforme divulgado na plataforma X.

GateNews24m atrás

DeepSeek planeja captar até RMB 50 bilhões em uma rodada de financiamento recorde, com o modelo V4.1 chegando em junho

De acordo com a PANews em 8 de maio, a DeepSeek planeja arrecadar até RMB 50 bilhões em sua primeira rodada de financiamento, o que marcaria a maior captação individual já feita por uma empresa chinesa de IA. O fundador e CEO Liang Wenfeng deve contribuir com o valor máximo. A empresa planeja acelerar o desenvolvimento de grandes modelos de linguagem

GateNews34m atrás

Sportix conclui rodada de financiamento de US$ 3,2 milhões liderada pela Coinvestor Ventures, Animoca Brands

De acordo com o ChainCatcher, a plataforma de infraestrutura de IA para esportes Sportix concluiu uma rodada de captação de US$ 3,2 milhões. A rodada foi liderada pela Coinvestor Ventures, com participação da Animoca Brands, Becker Ventures, X21 Digital e Alpha Capital. O Sportix disse que usará os recursos para avançar sua IA

GateNews36m atrás

O custo dos dados de treinamento de robôs caiu 65% desde 2024, caindo de US$ 340 para US$ 118 por hora

De acordo com a Cointelegraph, os custos dos dados de treinamento de robôs caíram 65% desde 2024, passando de US$ 340 por hora para US$ 118 por hora em 2026.

GateNews1h atrás

A China Mobile anuncia a aliança do ecossistema de aplicação de tokens com 8 parceiros em 8 de maio

De acordo com a PANews, em 8 de maio, a China Mobile anunciou a criação de uma Aliança de Ecossistema de Aplicações de Token com 8 parceiros, incluindo Alibaba Cloud, Volcano Engine e Huawei Cloud. A aliança utiliza a plataforma de agregação MoMA para construir um gateway de serviço unificado para AI doméstica m

GateNews1h atrás
Comentário
0/400
Sem comentários