Claude Fable 5 retornou online em 1º de julho, e duas plataformas de benchmarking de IA publicaram avaliações de desempenho conflitantes no mesmo dia. A BridgeBench relatou que a pontuação de depuração do Claude Fable 5 despencou de 86,2 para 25,9 após a reintegração, enquanto a Arena.AI constatou desempenho praticamente inalterado por meio de milhares de votos cegos de preferência humana. A divergência decorre do novo classificador de segurança da Anthropic, que direciona a maioria das tarefas de codificação e depuração para o Claude Opus 4,8 em vez de permitir que o Fable 5 as manipule diretamente. A Anthropic reconheceu que o classificador produz falsos positivos em tarefas rotineiras de codificação. A empresa implementou o classificador conservador como condição para a reintegração do Fable 5 após uma demonstração de vulnerabilidade de segurança relatada por pesquisadores da Amazon.
A BridgeMind reexecutou seu conjunto completo de codificação na versão de 1º de julho do Fable 5 no dia em que ele retornou. A BridgeBench testa tarefas reais de codificação em categorias como depuração, refatoração e resistência a alucinações, pontuando de 0 a 100 o quão bem o modelo completa cada categoria. Depuração caiu de 86,2 para 25,9; Refatoração de 73,6 para 38,4; e Resistência a alucinações de 75,9 para 61,7.
Das 12 tarefas de depuração em TypeScript, apenas três realmente chegaram ao Fable 5. As nove restantes foram interceptadas pelo novo classificador de segurança da Anthropic e redirecionadas para o Claude Opus 4,8. A BridgeBench pontua cada fallback como zero, porque o modelo que respondeu não era o que estava sendo avaliado. O classificador foi treinado para bloquear a técnica de jailbreak reportada pela Amazon, que fez o Fable 5 identificar e demonstrar vulnerabilidades de software. A depuração de TypeScript parece suficientemente semelhante a trabalho de segurança para o classificador, fazendo com que o fallback seja acionado constantemente.
A Arena.AI analisou a mesma questão por uma lente diferente. A plataforma coleta milhares de votos cegos de preferência humana em várias categorias — texto, visão, documento, código e agente — e classifica os modelos usando pontuação Elo. Quando dois modelos se enfrentam anonimamente e humanos escolhem um vencedor, a pontuação reflete a qualidade percebida real, não o roteamento da infraestrutura.
A comparação antes e depois mostrou o Fable 5 mantendo sua posição em grande parte. Código frontend caiu de 1.650 para 1.623 Elo — uma diferença que a Arena observou estar dentro do intervalo de confiança à medida que os dados continuam se acumulando. O desempenho em documentos melhorou em 34 pontos. Texto especializado subiu 25. Escrita criativa aumentou ligeiramente em 9. As categorias que caíram — Codificação em -18, prompts difíceis em -3 — são exatamente onde o classificador tem mais probabilidade de interceptar o prompt antes que o Fable possa responder.
Quando o Fable 5 realmente lida com a tarefa, ele ainda tem o desempenho de um Fable 5. Usuários comuns fazendo escrita criativa, análise de documentos, pesquisa e consultas de texto em nível especializado provavelmente notarão pouca ou nenhuma diferença. Essas são as categorias onde a Arena.AI mostra desempenho estável ou melhorado. Desenvolvedores que trabalham em áreas adjacentes à segurança — codificação de gerenciamento de memória, qualquer coisa que toque em palavras como vulnerabilidade, exploração, hook ou correção — encontrarão o fallback regularmente.
A Anthropic afirmou que os classificadores melhorarão com o tempo, reconhecendo que atualmente lançam uma rede muito ampla. A proibição original veio depois que pesquisadores da Amazon encontraram uma técnica para fazer o Fable identificar e demonstrar vulnerabilidades de software, e o governo dos EUA tratou isso como uma ameaça à segurança nacional. A solução foi tornar o classificador conservador o suficiente para capturar isso e tudo ao redor, e depois ajustá-lo mais tarde. A Anthropic não deu uma data prevista para quando isso ocorrerá.
O que fez a pontuação de depuração do Claude Fable 5 cair de 86,2 para 25,9 após 1º de julho?
A queda resultou do novo classificador de segurança da Anthropic, que roteou nove das doze tarefas de depuração para o Claude Opus 4,8 em vez de permitir que o Fable 5 as manipulasse. A BridgeBench pontua cada fallback como zero porque o modelo avaliado não respondeu. O classificador foi implantado para bloquear a técnica de jailbreak reportada pela Amazon, que fez o Fable 5 demonstrar vulnerabilidades de software.
Como os testes de preferência humana da Arena.AI diferiram dos resultados da BridgeBench?
A Arena.AI coletou milhares de votos cegos de preferência humana nas categorias texto, visão, documento, código e agente. A plataforma constatou que o desempenho do Fable 5 permaneceu praticamente estável em comparação com a versão de junho, com melhora de 34 pontos no desempenho em documentos e alta de 25 pontos em texto especializado. O código frontend caiu de 1.650 para 1.623 Elo, uma diferença que a Arena observou estar dentro do intervalo de confiança.
Quando a Anthropic refinará o classificador de segurança para reduzir falsos positivos?
A Anthropic reconheceu que os novos classificadores produzem falsos positivos em tarefas rotineiras de codificação e depuração e afirmou que o sistema será refinado ao longo do tempo. A empresa não deu nenhum prazo para quando os refinamentos ocorrerão.
Notícias relacionadas
KOSPI se recupera para 8.000 após cair para 7.300 por preocupações com IA
Claude Fable 5 Apresenta Resultados de Benchmark Conflitantes Após Reintegração em 1º de Julho
EUA suspende as restrições de exportação dos modelos de IA Fable 5 e Mythos 5 da Anthropic.
Claude Sonnet 5 lançado, preço da API 60% mais barato que o Opus.