Claude Fable 5 Menunjukkan Hasil Benchmark yang Bertentangan Setelah Pemulihan pada 1 Juli

Claude Fable 5 kembali beroperasi pada 1 Juli, memicu penilaian kinerja yang bertentangan dari dua platform benchmarking AI. BridgeBench melaporkan penurunan skor debugging dari 86,2 menjadi 25,9, sementara Arena.AI menemukan kinerja sebagian besar tidak berubah melalui ribuan suara preferensi manusia buta. Perbedaan ini berasal dari pengklasifikasi keamanan baru Anthropic yang mengarahkan sebagian besar tugas pengkodean ke Claude Opus 4.8, bukan penurunan kemampuan model yang sebenarnya, menurut analisis yang diterbitkan pada 2 Juli. Pengklasifikasi tersebut diterapkan sebagai syarat pemulihan setelah peneliti Amazon mendemonstrasikan teknik jailbreak pada bulan Juni, yang mendorong intervensi pemerintah AS atas dasar keamanan nasional.

BridgeBench Mencatat Penurunan Skor Parah di Seluruh Kategori Pengkodean

BridgeMind menjalankan ulang seluruh rangkaian pengkodeannya terhadap versi 1 Juli dari Fable 5 pada hari kembalinya. BridgeBench menguji tugas pengkodean dunia nyata di berbagai kategori termasuk debugging, refactoring, dan ketahanan halusinasi, dengan skor 0–100 berdasarkan seberapa baik model menyelesaikan setiap kategori. Debugging turun dari 86,2 menjadi 25,9, Refactoring dari 73,6 menjadi 38,4, dan Ketahanan halusinasi dari 75,9 menjadi 61,7.

Dari 12 tugas debugging TypeScript, hanya tiga yang benar-benar mencapai Fable 5. Sembilan sisanya dicegat oleh pengklasifikasi keamanan baru Anthropic dan dialihkan ke Claude Opus 4.8. BridgeBench memberikan skor nol untuk setiap pengalihan, karena model yang menjawab bukanlah model yang dievaluasi. Pengklasifikasi dilatih untuk memblokir teknik jailbreak yang dilaporkan Amazon—teknik yang membuat Fable 5 mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak. Debugging TypeScript terlihat cukup mirip dengan pekerjaan keamanan bagi pengklasifikasi sehingga pengalihan terjadi terus-menerus.

Voting Manusia Arena.AI Menunjukkan Kinerja Stabil di Sebagian Besar Kategori

Arena.AI menjalankan pertanyaan yang sama melalui sudut pandang yang berbeda. Platform ini mengumpulkan ribuan suara preferensi manusia buta di berbagai kategori—teks, visi, dokumen, kode, dan agen—dan memberi peringkat model menggunakan skor Elo. Ketika dua model bertemu secara anonim dan manusia memilih pemenang, skor tersebut mencerminkan kualitas yang dirasakan sebenarnya, bukan routing infrastruktur.

Perbandingan sebelum dan sesudah menunjukkan Fable 5 sebagian besar bertahan. Kode frontend turun dari 1650 menjadi 1623 Elo—perbedaan yang dicatat Arena masih dalam interval kepercayaan seiring dengan akumulasi data. Kinerja dokumen meningkat 34 poin. Teks ahli naik 25. Penulisan kreatif naik sedikit 9. Kategori yang menurun—Pengkodean di -18, prompt sulit di -3—tepatnya di mana pengklasifikasi paling mungkin mencegat prompt sebelum Fable dapat menjawab.

Dampak Pengguna Bervariasi Berdasarkan Kategori Tugas

Pengguna umum yang melakukan penulisan kreatif, analisis dokumen, penelitian, dan kueri teks tingkat ahli kemungkinan besar akan merasakan sedikit atau tidak ada perbedaan. Itu adalah kategori di mana Arena.AI menunjukkan kinerja datar atau meningkat. Penulis, peneliti, dan analis akan mendapatkan Fable 5 yang mereka harapkan.

Siapa pun yang bekerja di area yang berdekatan dengan keamanan—pengelolaan memori kode, apa pun yang menyentuh kata-kata seperti kerentanan, eksploitasi, hook, atau bahkan perbaikan—akan sering mengalami pengalihan. Kesenjangan antara keruntuhan BridgeBench dan stabilitas Arena terletak pada jenis tugas. BridgeBench memuat rangkaiannya dengan tepat jenis prompt perbaikan kode dan debugging yang memicu pengklasifikasi baru. Voter manusia Arena menanyakan campuran hal yang jauh lebih luas, dan sebagian besar tidak terlihat seperti kode eksploitasi bagi lapisan keamanan.

Anthropic Mengakui Positif Palsu Tanpa Jadwal untuk Penyempurnaan

Anthropic telah mengatakan bahwa pengklasifikasi akan meningkat seiring waktu, mengakui bahwa saat ini mereka menjaring terlalu luas. Larangan awal terjadi setelah peneliti Amazon menemukan teknik untuk membuat Fable mengidentifikasi dan mendemonstrasikan kerentanan perangkat lunak—dan pemerintah AS memperlakukan itu sebagai ancaman keamanan nasional. Perbaikannya adalah membuat pengklasifikasi cukup konservatif untuk menangkap itu dan segala sesuatu di sekitarnya, lalu menyesuaikannya nanti. Anthropic tidak memberikan tanggal target kapan hal itu akan terjadi.

FAQ

Mengapa skor debugging Claude Fable 5 turun dari 86,2 menjadi 25,9 di BridgeBench?
Pengklasifikasi keamanan mengarahkan sembilan dari dua belas tugas debugging TypeScript ke Claude Opus 4.8, bukan Fable 5. BridgeBench memberikan skor nol untuk setiap pengalihan karena model yang dievaluasi tidak menangani tugas tersebut, menyebabkan penurunan skor parah meskipun tidak ada perubahan pada kemampuan sebenarnya dari Fable 5.

Apa yang ditemukan Arena.AI tentang kinerja Fable 5 setelah pemulihan 1 Juli?
Arena.AI mengumpulkan ribuan suara preferensi manusia buta dan menemukan kinerja Fable 5 sebagian besar datar dibandingkan dengan versi Juni. Kinerja dokumen meningkat 34 poin dan teks ahli 25 poin, sementara kode frontend turun dari 1650 menjadi 1623 Elo—perbedaan yang masih dalam interval kepercayaan seiring dengan akumulasi data.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar