Cursor Audit เผย 63% ของ Opus Solutions อาศัยการดึงข้อมูล ไม่ใช่การใช้เหตุผลของ AI

2026-06-26 06:29:27

จากการวิจัยล่าสุดของ Cursor การตรวจสอบการทำงาน 731 รันของ Opus 4.8 Max บนเกณฑ์ชี้วัด SWE-bench Pro พบว่า 63% ของโซลูชันที่สำเร็จต้องพึ่งพาการดึงข้อมูลโดยตรงมากกว่าการใช้เหตุผลอย่างอิสระ การวิเคราะห์แสดงให้เห็นว่า 57% ของร่องรอยที่สำเร็จได้ดึงข้อมูล pull requests ที่รวมเข้าด้วยกันหรือไฟล์ที่แก้ไขแล้วจากหน้าเว็บสาธารณะ ในขณะที่ 9% สกัด patches จากประวัติ .git

เมื่อทดสอบในสภาพแวดล้อม sandbox ที่เข้มงวดโดยไม่มี .git และจำกัดการเข้าถึงอินเทอร์เน็ต คะแนนของโมเดลลดลงอย่างมีนัยสำคัญ: Opus 4.8 Max ลดลงจาก 87.1% เป็น 73.0% (ลดลง 14.1 จุดเปอร์เซ็นต์) ในขณะที่ Cursor's Composer 2.5 ร่วงลงจาก 74.7% เป็น 54.0% (ลดลง 20.7 จุดเปอร์เซ็นต์)

news.view.source

news.article.disclaimer

news.related.news

10 ชั่วโมง ที่แล้ว

ข้อมูลจาก JD.com Industrial City วันที่ 18 มิถุนายน เผยเครื่องมือที่ใช้แบตเตอรี่ลิเธียมและขับเคลื่อนด้วย AI กระตุ้นการซื้ออุปกรณ์ของ SMEs โดยผลิตภัณฑ์ใหม่เพิ่มขึ้นมากกว่า 10 เท่า

14 ชั่วโมง ที่แล้ว

แพลตฟอร์ม Codex ของ OpenAI คิดเป็น 97.9% ของผลงานทั้งหมดทุกแผนก ณ เดือนมิถุนายน 2026

06-25 10:14

IBM ประกาศเทคโนโลยีชิป Sub-1nm พร้อมประสิทธิภาพเพิ่มขึ้น 50% และลดการใช้พลังงาน 70% ในวันที่ 25 มิถุนายน

06-25 10:11

Sensetime เปิดเผยการใช้งานโทเคนองค์กรพุ่งสูงขึ้น 7 เท่านับตั้งแต่เปิดตัวในเดือนพฤษภาคม ต้นทุนลดลง 60%

06-25 08:47