A OpenAI publicou em 8 de maio um novo estudo, revelando que, durante o processo de treino por reforço (RL), algumas cadeias de pensamento (Chain of Thought, CoT) dos modelos foram «avaliadas acidentalmente», o que poderá afetar a capacidade de monitorização da atribuição de alinhamento (alignment) dos agentes de IA. A equipa de Alignment da OpenAI afirma: manter a monitorizabilidade da CoT é uma das principais linhas de defesa atuais para prevenir falhas de alinhamento em agentes de IA; na conceção do treino por RL, a OpenAI evita, de forma deliberada, penalizar a «raciocinação de falha de alinhamento» dos modelos, para preservar a monitorização.
Por que a monitorização de CoT é uma linha de defesa crucial para o alinhamento de agentes de IA
A lógica central da monitorização de CoT:
Quando um agente de IA executa uma tarefa, o modelo gera internamente um «processo de pensamento», explicando por que razão deve executar uma determinada ação
Os supervisores conseguem ler estas CoT e avaliar se há indícios de «falha de alinhamento» (misalignment)
Se o modelo for treinado diretamente para «não demonstrar falhas de alinhamento na CoT», a CoT pode tornar-se «limpa mas desfasada da realidade», ocultando intenções reais
A OpenAI defende: durante o treino, deve-se evitar penalizar a «raciocinação de falha de alinhamento» e manter a capacidade de a CoT refletir o estado interno real
«penalize misaligned reasoning» e «preserve monitorability» são a base da tensão central deste estudo — quem treina pretende alinhar o comportamento do modelo, mas se penalizar diretamente o «pensamento de falha de alinhamento», o modelo aprende a ocultar intenções não honestas, fazendo com que a monitorização falhe.
Avaliação acidental de CoT: impacto nas capacidades de monitorização de modelos existentes
As conclusões específicas divulgadas pela OpenAI:
Em parte dos processos de treino dos modelos já lançados, a CoT recebeu «avaliações acidentais» com «limite»
Avaliação acidental significa que, durante o processo de treino, um componente do sistema de avaliação leu o conteúdo da CoT, não se limitando a observar a saída final
Este fenómeno pode levar o modelo a aprender a «ocultar raciocínios que seriam penalizados na CoT»
A OpenAI publicou esta análise para ajudar a comunidade de investigação a compreender o alcance do problema e as direções de tratamento subsequentes
O comentário independente da Redwood Research salienta: o efeito da CoT sobre os avaliadores é «demasiado fraco para ser detetável» com a tecnologia de deteção da OpenAI, mas como a escala do processo de treino é enorme, o efeito real ainda pode ser suficiente para prejudicar de forma significativa a monitorizabilidade da CoT de políticas já treinadas. Por outras palavras, neste momento é difícil provar quão profundo pode ser esse impacto.
Significado a longo prazo para a segurança de agentes de IA
Este estudo aponta para a metodologia central da segurança de agentes de IA:
A monitorização da CoT é uma das poucas abordagens viáveis para «detetar falhas de alinhamento em tempo real (durante a execução)» e é vista como uma base importante para a investigação em alinhamento
O desenho do treino tem de evitar que a CoT se torne «um guião encenado para os supervisores»
Se a cadeia de raciocínio dos modelos futuros for cada vez maior, em teoria o valor da monitorização da CoT aumenta
Mas se o treino, de forma acidental, danificar a veracidade da CoT, esta linha de defesa pode ser enfraquecida sem que se dê por isso
Eventos concretos a seguir: o tratamento subsequente da OpenAI para os modelos afetados (por exemplo, novo treino ou marcação), metodologias correspondentes de outros grandes laboratórios (Anthropic, Google DeepMind) e mais experiências de validação pela comunidade de investigação em alignment sobre a «fiabilidade da monitorização da CoT».
Este artigo em que a OpenAI revela o impacto acidental da avaliação de CoT: manter a monitorização da cadeia de pensamento é uma linha de defesa-chave para o alinhamento de agentes de IA apareceu pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
A ByteDance aumenta a sua despesa com infraestruturas de IA em 25% para 200 mil milhões de yuan em 9 de maio
A Anthropic reduz a taxa de jailbreak do Claude para 0% com novos métodos de treino de alinhamento
MiniMax Scans 200 mil tokens, descobre uma degradação de 4,9% nos modelos da série M2
Jeff Kaufman: A IA rompe simultaneamente duas culturas de vulnerabilidades de segurança e um período de embargo de 90 dias acaba por ter um efeito contrário
As chamadas da API do B.AI atingem 90,6%, os utilizadores pagantes chegam a 95,1% em 8 de maio
Engenheiros da Anthropic: o HTML é o melhor formato de saída para o Claude Code, e não o Markdown