Laut dem Forscher Pliny the Liberator wurde Claude Fable 5—das am 9. Juni von Anthropic veröffentlicht wurde—innerhalb von 48 Stunden nach dem Start erfolgreich geknackt. Der Forscher umging den Sicherheits-Classifier des Modells mithilfe von Taktiken zur Multi-Agent-Koordination, die gemeinsam als „pack hunt“ bezeichnet werden. Dabei wurden eine Verschleierung auf Zeichenebene, die Zerlegung von Anfragen und die Ausnutzung des erweiterten Kontextfensters des Modells kombiniert. Zusätzlich wurde der 120.000 Zeichen lange Systemprompt des Modells auf GitHub geleakt, wodurch interne Sicherheitsmechanismen offengelegt wurden.
Anthropic bestätigte, ein „silent degradation“-Mechanismus implementiert zu haben, der die Modellleistung heimlich reduzierte, sobald er wettbewerbsbezogene Trainingsaktivität erkannte. Das Unternehmen entschuldigte sich und kündigte an, die verdeckte Leistungsreduktion durch sichtbare Warnhinweise zu ersetzen, was jedoch die Fehlalarme bei der Abfangung legitimer Nutzer erhöht.