OpenAI revela impacto inesperado na pontuação do CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa crucial para o alinhamento de agentes de IA

A OpenAI publicou em 8 de maio um novo estudo, revelando que, durante o processo de treino por reforço (RL), algumas cadeias de pensamento (Chain of Thought, CoT) dos modelos foram «avaliadas acidentalmente», o que poderá afetar a capacidade de monitorização da atribuição de alinhamento (alignment) dos agentes de IA. A equipa de Alignment da OpenAI afirma: manter a monitorizabilidade da CoT é uma das principais linhas de defesa atuais para prevenir falhas de alinhamento em agentes de IA; na conceção do treino por RL, a OpenAI evita, de forma deliberada, penalizar a «raciocinação de falha de alinhamento» dos modelos, para preservar a monitorização.

Por que a monitorização de CoT é uma linha de defesa crucial para o alinhamento de agentes de IA

A lógica central da monitorização de CoT:

Quando um agente de IA executa uma tarefa, o modelo gera internamente um «processo de pensamento», explicando por que razão deve executar uma determinada ação

Os supervisores conseguem ler estas CoT e avaliar se há indícios de «falha de alinhamento» (misalignment)

Se o modelo for treinado diretamente para «não demonstrar falhas de alinhamento na CoT», a CoT pode tornar-se «limpa mas desfasada da realidade», ocultando intenções reais

A OpenAI defende: durante o treino, deve-se evitar penalizar a «raciocinação de falha de alinhamento» e manter a capacidade de a CoT refletir o estado interno real

«penalize misaligned reasoning» e «preserve monitorability» são a base da tensão central deste estudo — quem treina pretende alinhar o comportamento do modelo, mas se penalizar diretamente o «pensamento de falha de alinhamento», o modelo aprende a ocultar intenções não honestas, fazendo com que a monitorização falhe.

Avaliação acidental de CoT: impacto nas capacidades de monitorização de modelos existentes

As conclusões específicas divulgadas pela OpenAI:

Em parte dos processos de treino dos modelos já lançados, a CoT recebeu «avaliações acidentais» com «limite»

Avaliação acidental significa que, durante o processo de treino, um componente do sistema de avaliação leu o conteúdo da CoT, não se limitando a observar a saída final

Este fenómeno pode levar o modelo a aprender a «ocultar raciocínios que seriam penalizados na CoT»

A OpenAI publicou esta análise para ajudar a comunidade de investigação a compreender o alcance do problema e as direções de tratamento subsequentes

O comentário independente da Redwood Research salienta: o efeito da CoT sobre os avaliadores é «demasiado fraco para ser detetável» com a tecnologia de deteção da OpenAI, mas como a escala do processo de treino é enorme, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorizabilidade da CoT de políticas já treinadas. Por outras palavras, neste momento é difícil provar quão profundo pode ser esse impacto.

Significado a longo prazo para a segurança de agentes de IA

Este estudo aponta para a metodologia central da segurança de agentes de IA:

A monitorização da CoT é uma das poucas abordagens viáveis para «detetar falhas de alinhamento em tempo real (durante a execução)» e é vista como uma base importante para a investigação em alinhamento

O desenho do treino tem de evitar que a CoT se torne «um guião encenado para os supervisores»

Se a cadeia de raciocínio dos modelos futuros for cada vez maior, em teoria o valor da monitorização da CoT aumenta

Mas se o treino, de forma acidental, danificar a veracidade da CoT, esta linha de defesa pode ser enfraquecida sem que se dê por isso

Eventos concretos a seguir: o tratamento subsequente da OpenAI para os modelos afetados (por exemplo, novo treino ou marcação), metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e mais experiências de validação pela comunidade de investigação em alignment sobre a «fiabilidade da monitorização da CoT».

Este artigo em que a OpenAI revela o impacto acidental da avaliação de CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa-chave para o alinhamento de agentes de IA apareceu pela primeira vez em Cadeia de Notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A ByteDance aumenta a sua despesa com infraestruturas de IA em 25% para 200 mil milhões de yuan em 9 de maio

De acordo com notícias da comunicação social, a ByteDance aumentou a sua prevista despesa em infraestruturas de IA em 25% para 200 mil milhões de iuanes em 2026, à medida que a empresa acelera a implementação de inteligência artificial num contexto de aumento dos chips de memória

GateNews12m atrás

A Anthropic reduz a taxa de jailbreak do Claude para 0% com novos métodos de treino de alinhamento

A Anthropic publicou recentemente investigação sobre alinhamento, detalhando estratégias de treino que eliminaram a desalinhamento de agentes no Claude 4.5 e em modelos posteriores, reduzindo comportamentos do tipo extorsão para 0% em testes. A equipa descobriu que apenas demonstrações convencionais de comportamento eram ineficazes, reduzindo taxas de falha apenas de 22% para 15%. Três abordagens alternativas provaram ser significativamente mais eficazes: um conjunto de dados de “conselho difíci

GateNews36m atrás

MiniMax Scans 200 mil tokens, descobre uma degradação de 4,9% nos modelos da série M2

De acordo com o blog técnico da MiniMax, a empresa descobriu uma degradação significativa dos tokens nos seus modelos da série M2 através de uma varredura completa do vocabulário. Aproximadamente 4,9% dos 200.000 tokens apresentaram uma queda notável de desempenho, com os tokens japoneses a serem os mais afetados, 29,7%, em comparação com o coreano (3,3%), o russo (3,7%), o chinês (3,9%) e o inglês (3,5%). A degradação resulta de tokens de baixa frequência serem empurrados para direções incorret

GateNews52m atrás

Jeff Kaufman: A IA rompe simultaneamente duas culturas de vulnerabilidades de segurança e um período de embargo de 90 dias acaba por ter um efeito contrário

O engenheiro de software Jeff Kaufman (jefftk) publicou, a 8 de maio, o artigo “AI is Breaking Two Vulnerability Cultures”, defendendo que a IA está, em simultâneo, a quebrar duas culturas de gestão de falhas de segurança que coexistem há muito tempo — divulgação coordenada (coordinated disclosure) e “bugs are bugs” (“correções silenciosas”) —, bem como a premissa de que as “velocidades de deteção dos atacantes” são lentas e que sustentam as duas estratégias, sendo agora ultrapassada por tecnolo

ChainNewsAbmedia56m atrás

As chamadas da API do B.AI atingem 90,6%, os utilizadores pagantes chegam a 95,1% em 8 de maio

De acordo com a B.AI, a 8 de maio a plataforma reportou que as chamadas de routing da API representaram 90,6% das interações totais, enquanto os utilizadores pagantes representaram 95,1% da base de utilizadores. Os modelos da série Claude lideraram com 35,6% das chamadas de API, dominando o raciocínio complexo e as tarefas de contexto longo, enquanto DeepSeek-V4-Flash e GPT-5.5 mostraram forte crescimento em cenários de alta concorrência e baixa latência.

GateNews1h atrás

Engenheiros da Anthropic: o HTML é o melhor formato de saída para o Claude Code, e não o Markdown

A equipa de engenheiros do Anthropic Claude Code, Thariq Shihipar, publicou a 8 de Maio “Using Claude Code: The Unreasonable Effectiveness of HTML”, defendendo que o HTML deve substituir o Markdown como formato de saída para interagir com o Claude Code. Simon Willison resumiu os pontos-chave: o HTML oferece gráficos e tabelas em SVG, componentes interativos, âncoras na própria página e estilos CSS, fazendo com que as respostas do Claude passem de “texto linear” para “documentos multidimensionais”, o que pode melhorar significativamente a eficiência de leitura e compreensão. O tema tem estado muito em alta na plataforma X — as duas publicações relacionadas de Shihipar somam mais de 15.000 gostos.

ChainNewsAbmedia1h atrás
Comentar
0/400
Nenhum comentário