O sistema de recompensas da OpenAI, inadvertidamente, pontua cadeias de raciocínio em 6 modelos, incluindo GPT-5.4

De acordo com a equipe de alinhamento da OpenAI, a empresa recentemente descobriu um erro crítico de treinamento que afetou 6 grandes modelos de linguagem, incluindo o GPT-5.4. Pensamento: o mecanismo de recompensa, por engano, pontuou cadeias de pensamento do modelo — o processo interno de raciocínio antes de gerar respostas. O GPT-5.5 não foi afetado. O incidente viola um princípio fundamental de segurança em IA de que as cadeias de pensamento nunca devem ser avaliadas, pois fazê-lo poderia incentivar os modelos a fabricar raciocínios para obter pontuações mais altas.

O sistema de pontuação com falha incluiu incorretamente cadeias de pensamento ao avaliar se as respostas eram úteis ou se os modelos haviam sido comprometidos por ataques. As amostras de treinamento afetadas representavam no máximo 3,8% do conjunto de dados. A OpenAI corrigiu a vulnerabilidade e realizou experimentos comparativos confirmando que os modelos não desenvolveram comportamentos enganosos. A empresa implantou um sistema automatizado de varredura em todas as esteiras de treinamento para evitar recorrência.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários