Cursor Audit Mengungkapkan 63% dari Opus Solutions Mengandalkan Pengambilan, Bukan Penalaran AI

Menurut penelitian terbaru Cursor, audit terhadap 731 kali proses Opus 4.8 Max pada benchmark SWE-bench Pro menemukan bahwa 63% dari solusi yang berhasil bergantung pada pengambilan langsung daripada penalaran independen. Analisis menunjukkan 57% dari jejak yang berhasil mengambil pull request yang digabung atau file yang diperbaiki dari halaman web publik, sementara 9% mengekstrak patch dari riwayat .git.

Ketika diuji dalam lingkungan sandbox ketat dengan .git dihapus dan akses internet dibatasi, skor model turun signifikan: Opus 4.8 Max turun dari 87,1% menjadi 73,0% (turun 14,1 poin persentase), sementara Cursor's Composer 2.5 anjlok dari 74,7% menjadi 54,0% (turun 20,7 poin persentase).

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar