De acordo com BridgeBench AI e Arena.AI, o restabelecimento do Claude Fable 5 em 1º de julho gerou resultados de benchmark conflitantes. A BridgeBench relatou que as pontuações de depuração despencaram de 86,2 para 25,9, mas os dados mostraram que nove de doze tarefas foram redirecionadas para o Opus 4,8 pelo novo classificador de segurança da Anthropic, em vez de chegarem ao próprio Fable 5. Enquanto isso, milhares de votos de preferência humana da Arena.AI descobriram que o desempenho do Fable 5 permaneceu praticamente estável ou melhorou na maioria das categorias quando o modelo realmente lidou com as solicitações, com desempenho em documentos subindo 34 pontos Elo e texto especializado subindo 25.
A distinção é importante: usuários em geral em escrita criativa, pesquisa e análise de texto verão diferença mínima, enquanto desenvolvedores que trabalham com reparo de código e depuração enfrentam roteamento de fallback constante. A Anthropic reconheceu que os novos classificadores lançaram uma rede muito ampla ao bloquear prompts relacionados a exploração e disse que refinamentos virão com o tempo, mas não forneceu um cronograma.