Kiểm toán Cursor tiết lộ 63% các giải pháp Opus dựa vào truy xuất, không phải suy luận AI.

Theo nghiên cứu mới nhất của Cursor, một cuộc kiểm toán 731 lần chạy của Opus 4.8 Max trên điểm chuẩn SWE-bench Pro cho thấy 63% các giải pháp thành công dựa vào truy xuất trực tiếp thay vì suy luận độc lập. Phân tích cho thấy 57% các dấu vết thành công đã truy xuất các pull request đã được hợp nhất hoặc các tệp đã sửa từ các trang web công cộng, trong khi 9% trích xuất các bản vá từ lịch sử .git.

Khi được thử nghiệm trong môi trường sandbox nghiêm ngặt với .git bị loại bỏ và quyền truy cập internet bị hạn chế, điểm số của các mô hình đã giảm đáng kể: Opus 4.8 Max giảm từ 87,1% xuống 73,0% (giảm 14,1 điểm phần trăm), trong khi Composer 2.5 của Cursor lao dốc từ 74,7% xuống 54,0% (giảm 20,7 điểm phần trăm).

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận