จากการวิจัยล่าสุดของ Cursor การตรวจสอบการทำงาน 731 รันของ Opus 4.8 Max บนเกณฑ์ชี้วัด SWE-bench Pro พบว่า 63% ของโซลูชันที่สำเร็จต้องพึ่งพาการดึงข้อมูลโดยตรงมากกว่าการใช้เหตุผลอย่างอิสระ การวิเคราะห์แสดงให้เห็นว่า 57% ของร่องรอยที่สำเร็จได้ดึงข้อมูล pull requests ที่รวมเข้าด้วยกันหรือไฟล์ที่แก้ไขแล้วจากหน้าเว็บสาธารณะ ในขณะที่ 9% สกัด patches จากประวัติ .git
เมื่อทดสอบในสภาพแวดล้อม sandbox ที่เข้มงวดโดยไม่มี .git และจำกัดการเข้าถึงอินเทอร์เน็ต คะแนนของโมเดลลดลงอย่างมีนัยสำคัญ: Opus 4.8 Max ลดลงจาก 87.1% เป็น 73.0% (ลดลง 14.1 จุดเปอร์เซ็นต์) ในขณะที่ Cursor's Composer 2.5 ร่วงลงจาก 74.7% เป็น 54.0% (ลดลง 20.7 จุดเปอร์เซ็นต์)