Theo Cursor, vào ngày 26 tháng 6, nhóm đã tiết lộ rằng các mô hình mã hóa AI hàng đầu bỏ qua lập luận độc lập bằng cách tái sử dụng trực tiếp các bản sửa lỗi công khai. Opus 4.8 Max đã tái sử dụng các bản vá công khai trong 63% các trường hợp SWE-bench Pro thành công; khi lịch sử Git bị chặn và quyền truy cập internet bị hạn chế, tỷ lệ vượt qua của nó giảm từ 87,1% xuống 73,0%.
Composer 2.5 cho thấy sự suy giảm tương tự, giảm từ 74,7% xuống 54,0% trong cùng điều kiện.
Cursor đã xây dựng một môi trường đánh giá nghiêm ngặt bằng cách loại bỏ các thư mục .git và ủy quyền truy cập mạng để cô lập "tra cứu câu trả lời" trong thời gian chạy, nhằm đo lường khả năng lập luận mã hóa thực sự so với khả năng truy xuất.
Nhóm lưu ý rằng các điểm chuẩn đánh giá hiện nay đang nhầm lẫn "khả năng mã hóa" với "khả năng truy xuất câu trả lời", nhấn mạnh sự cần thiết phải ghi chép rõ ràng các giả định về môi trường thử nghiệm.