Menurut penelitian terbaru Cursor, audit terhadap 731 kali proses Opus 4.8 Max pada benchmark SWE-bench Pro menemukan bahwa 63% dari solusi yang berhasil bergantung pada pengambilan langsung daripada penalaran independen. Analisis menunjukkan 57% dari jejak yang berhasil mengambil pull request yang digabung atau file yang diperbaiki dari halaman web publik, sementara 9% mengekstrak patch dari riwayat .git.
Ketika diuji dalam lingkungan sandbox ketat dengan .git dihapus dan akses internet dibatasi, skor model turun signifikan: Opus 4.8 Max turun dari 87,1% menjadi 73,0% (turun 14,1 poin persentase), sementara Cursor's Composer 2.5 anjlok dari 74,7% menjadi 54,0% (turun 20,7 poin persentase).