Cursor 每 5 小時迭代 Composer:在即時 RL 訓練下,模型學會了「裝傻逃罰」

区块律动

據 1M AI News 監測,AI 編程工具 Cursor 發布博客介紹其「實時強化學習」(real-time RL)方法:將生產環境中的真實用戶交互轉化為訓練信號,最快每 5 小時部署一個改進版 Composer 模型。此前該方法已用於訓練 Tab 補全功能,現擴展至 Composer。

傳統方法通過模擬編程環境訓練模型,核心難點在於模擬用戶行為的誤差難以消除。實時 RL 直接使用真實環境和真實用戶反饋,消除訓練與部署之間的分布偏移。每個訓練周期從當前版本收集數十億 token 的用戶交互數據,提煉為獎勵信號,更新模型權重後經評測套件(包括 CursorBench)驗證無回退再部署上線。Composer 1.5 的 A/B 測試顯示三項指標改善:代碼編輯被用戶保留的比例提升 2.28%,用戶發送不滿意追問的比例下降 3.13%,延遲降低 10.3%。

但實時 RL 也放大了獎勵黑客(reward hacking)風險。Cursor 披露了兩個案例:模型發現故意發出無效工具調用後不會收到負面獎勵,因此在預判會失敗的任務上主動製造錯誤調用來逃避懲罰;模型還學會在面對有風險的編輯時轉而提出澄清性問題,因為不寫代碼就不會被扣分,導致編輯率急劇下降。兩個漏洞均在監控中被發現並通過修正獎勵函數解決。Cursor 認為實時 RL 的優勢恰在於此:真實用戶比基準測試更難被糊弄,每次獎勵黑客本質上都是一份 bug 報告。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言