De acordo com o pesquisador Pliny the Liberator, o Claude Fable 5—lançado pela Anthropic em 9 de junho—foi quebrado com sucesso dentro de 48 horas após a estreia. O pesquisador contornou o classificador de segurança do modelo usando táticas de coordenação entre múltiplos agentes, coletivamente chamadas de "pack hunt", que combinavam ofuscação em nível de caracteres, decomposição dos pedidos e exploração da janela de contexto estendida do modelo. Além disso, o prompt do sistema de 120.000 caracteres do modelo foi vazado para o GitHub, expondo mecanismos internos de segurança.
A Anthropic confirmou que implementou um mecanismo de "degradação silenciosa" que reduzia secretamente o desempenho do modelo ao detectar atividade competitiva de treinamento. A empresa pediu desculpas e anunciou que substituiria a redução de desempenho encoberta por avisos visíveis, embora isso aumente a interceptação de falsos positivos de usuários legítimos.