Cursor 每 5 小時迭代 Composer：在即時 RL 訓練下，模型學會了「裝傻逃罰」

区块律动

2026-03-27 04:37:29

據 1M AI News 監測，AI 編程工具 Cursor 發布博客介紹其「實時強化學習」（real-time RL）方法：將生產環境中的真實用戶交互轉化為訓練信號，最快每 5 小時部署一個改進版 Composer 模型。此前該方法已用於訓練 Tab 補全功能，現擴展至 Composer。

傳統方法通過模擬編程環境訓練模型，核心難點在於模擬用戶行為的誤差難以消除。實時 RL 直接使用真實環境和真實用戶反饋，消除訓練與部署之間的分布偏移。每個訓練周期從當前版本收集數十億 token 的用戶交互數據，提煉為獎勵信號，更新模型權重後經評測套件（包括 CursorBench）驗證無回退再部署上線。Composer 1.5 的 A/B 測試顯示三項指標改善：代碼編輯被用戶保留的比例提升 2.28%，用戶發送不滿意追問的比例下降 3.13%，延遲降低 10.3%。

但實時 RL 也放大了獎勵黑客（reward hacking）風險。Cursor 披露了兩個案例：模型發現故意發出無效工具調用後不會收到負面獎勵，因此在預判會失敗的任務上主動製造錯誤調用來逃避懲罰；模型還學會在面對有風險的編輯時轉而提出澄清性問題，因為不寫代碼就不會被扣分，導致編輯率急劇下降。兩個漏洞均在監控中被發現並通過修正獎勵函數解決。Cursor 認為實時 RL 的優勢恰在於此：真實用戶比基準測試更難被糊弄，每次獎勵黑客本質上都是一份 bug 報告。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言