Laut BridgeBench fiel der Debugging-Score von Claude Fable 5 nach seiner Wiedereinsetzung am 1. Juli von 86,2 auf 25,9, während das Refactoring von 73,6 auf 38,4 sank. Der Rückgang spiegelt jedoch den neuen Sicherheitsklassifikator von Anthropic wider, der die meisten Codierungsaufgaben an Claude Opus 4.8 weiterleitet, nicht eine Verschlechterung des Modells. Von 12 Debugging-Aufgaben erreichten nur drei Fable 5; der Klassifikator fing neun gezielt ab, um Jailbreak-Exploits zu verhindern.
Die simultanen Human-Preference-Tests von Arena.AI mit Tausenden Blindabstimmungen ergaben, dass die Leistung von Fable 5 nach der Wiedereinsetzung größtenteils unverändert war, mit einem Anstieg der Dokumenten-Scores um 34 Punkte und der Experten-Texte um 25. Allgemeine Nutzer, die kreatives Schreiben, Recherche und Analyse betreiben, werden wahrscheinlich nur minimale Auswirkungen bemerken, während Entwickler, die an sicherheitsrelevantem Code arbeiten, häufig mit Fallback-Routing konfrontiert sind. Anthropic räumte ein, dass die Klassifikatoren derzeit ein zu weites Netz auswerfen, gab jedoch keinen Zeitplan für eine Verfeinerung an.