De acuerdo con el investigador Pliny el Liberador, Claude Fable 5—publicado por Anthropic el 9 de junio—fue superado con éxito dentro de las 48 horas posteriores al lanzamiento. El investigador eludió el clasificador de seguridad del modelo usando tácticas de coordinación entre múltiples agentes, denominadas en conjunto "pack hunt", que combinaban ofuscación a nivel de caracteres, descomposición de solicitudes y la explotación de la ventana de contexto ampliada del modelo. Además, el prompt del sistema de 120,000 caracteres del modelo se filtró a GitHub, revelando mecanismos internos de seguridad.
Anthropic confirmó que había implementado un mecanismo de "degradación silenciosa" que reducía en secreto el rendimiento del modelo al detectar actividad de entrenamiento competitiva. La compañía se disculpó y anunció que reemplazaría la reducción encubierta del rendimiento por avisos visibles, aunque esto incrementa la interceptación de falsos positivos de usuarios legítimos.