Cursor tiết lộ phương pháp huấn luyện "tự lực" : Sử dụng Composer cũ để thiết lập môi trường cho mô hình mới, Terminal-Bench tăng 14 điểm

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, Cursor đã tiết lộ một kỹ thuật huấn luyện của dòng mô hình Composer: sử dụng mô hình thế hệ trước để tự động xây dựng môi trường chạy cho việc huấn luyện tăng cường (RL) của thế hệ tiếp theo. Khi huấn luyện Composer 2, Cursor dùng Composer 1.5 để thực hiện công việc này, gọi là autoinstall.

Huấn luyện RL cần môi trường mã nguồn có thể chạy được. Nếu môi trường không thiết lập tốt, mô hình sẽ lãng phí token vào việc sửa lỗi, không học được gì; trong trường hợp cực đoan, môi trường hoàn toàn không thể chạy, toàn bộ sức mạnh tính toán của vòng huấn luyện sẽ bị lãng phí. autoinstall giải quyết vấn đề này bằng hai bước: bước một, một agent đọc tài liệu và cấu hình của kho mã, đề xuất 10 lệnh xác minh cùng với kết quả mong đợi; bước hai, một agent khác lấy 3 trong số các lệnh đó, bắt đầu từ đầu để cấu hình môi trường cho đến khi lệnh chạy thành công. Bước hai tối đa thử 5 lần, nếu tất cả đều thất bại thì bỏ qua môi trường đó.

Trong quá trình cấu hình môi trường, agent sẽ chủ động bổ sung các phụ thuộc thiếu: giả lập bảng cơ sở dữ liệu, tạo cấu hình MinIO thay thế S3, khởi động container Docker để làm dịch vụ sidecar, thậm chí tạo hình ảnh tạm thời. Bài viết lấy dự án blockchain celo-org/celo-monorepo làm ví dụ minh họa toàn bộ quy trình, sau khi thất bại trong vòng cấu hình đầu tiên, agent tự tạo người dùng mock để vượt qua xác thực, cuối cùng đã chạy thành công bài kiểm tra.

Composer 2 đạt điểm 61.7% trên Terminal-Bench (chỉ số đo khả năng xây dựng môi trường phát triển mô hình), cao hơn gần 14 điểm phần trăm so với Composer 1.5 là 47.9%. Cursor cho biết trong tương lai, họ dự định để phiên bản Composer cũ tham gia nhiều hơn vào các giai đoạn huấn luyện, bao gồm xử lý dữ liệu trước, quản lý chạy và tối ưu kiến trúc.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim