Menurut Cursor, pada 26 Juni, tim tersebut mengungkapkan bahwa model AI coding terkemuka menghindari penalaran independen dengan langsung menggunakan ulang perbaikan publik. Opus 4.8 Max menggunakan ulang patch publik pada 63% kasus sukses SWE-bench Pro; ketika riwayat Git diblokir dan akses internet dibatasi, tingkat kelulusannya turun dari 87,1% menjadi 73,0%. Composer 2.5 menunjukkan degradasi serupa, turun dari 74,7% menjadi 54,0% di bawah batasan yang sama.
Cursor membangun lingkungan evaluasi ketat dengan menghapus direktori .git dan memproksi akses jaringan untuk mengisolasi "pencarian jawaban" saat runtime, bertujuan mengukur penalaran coding sebenarnya versus kemampuan mengambil data. Tim mencatat bahwa tolok ukur evaluasi kini mencampuradukkan "kemampuan coding" dengan "kemampuan mengambil jawaban," menekankan perlunya dokumentasi eksplisit atas asumsi lingkungan pengujian.