Menurut BridgeBench, skor debugging Claude Fable 5 turun drastis dari 86,2 menjadi 25,9 setelah pemulihannya pada 1 Juli, dengan refactoring turun dari 73,6 menjadi 38,4. Namun, penurunan ini mencerminkan pengklasifikasi keamanan baru Anthropic yang mengarahkan sebagian besar tugas coding ke Claude Opus 4.8, bukan degradasi model. Dari 12 tugas debugging, hanya tiga yang mencapai Fable 5; pengklasifikasi mencegat sembilan sesuai desain untuk mencegah eksploitasi jailbreak.
Pengujian preferensi manusia simultan Arena.AI di ribuan suara buta menemukan kinerja Fable 5 sebagian besar tidak berubah pasca-pemulihan, dengan skor dokumen naik 34 poin dan teks ahli naik 25 poin. Pengguna umum yang menangani penulisan kreatif, riset, dan analisis kemungkinan akan merasakan dampak minimal, sementara pengembang yang mengerjakan kode terkait keamanan menghadapi pengalihan fallback yang sering. Anthropic mengakui bahwa pengklasifikasi saat ini menjaring terlalu luas tetapi tidak memberikan jadwal untuk penyempurnaan.