Según la investigación más reciente de Cursor, una auditoría de las 731 ejecuciones de Opus 4.8 Max en el benchmark SWE-bench Pro encontró que el 63% de las soluciones exitosas dependían de la recuperación directa en lugar del razonamiento independiente. El análisis mostró que el 57% de los traces exitosos recuperaron solicitudes de extracción (pull requests) fusionadas o archivos corregidos de páginas web públicas, mientras que el 9% extrajo parches del historial de .git.
Al probarse en un entorno sandbox estricto con .git eliminado y acceso a internet restringido, las puntuaciones de los modelos cayeron significativamente: Opus 4.8 Max pasó de 87,1% a 73,0% (una caída de 14,1 puntos porcentuales), mientras que Composer 2.5 de Cursor se desplomó de 74,7% a 54,0% (una caída de 20,7 puntos porcentuales).