據 1M AI News 監測,AI 編程工具 Cursor 發布博客介紹其「實時強化學習」(real-time RL)方法:將生產環境中的真實用戶交互轉化為訓練信號,最快每 5 小時部署一個改進版 Composer 模型。此前該方法已用於訓練 Tab 補全功能,現擴展至 Composer。
傳統方法通過模擬編程環境訓練模型,核心難點在於模擬用戶行為的誤差難以消除。實時 RL 直接使用真實環境和真實用戶反饋,消除訓練與部署之間的分布偏移。每個訓練周期從當前版本收集數十億 token 的用戶交互數據,提煉為獎勵信號,更新模型權重後經評測套件(包括 CursorBench)驗證無回退再部署上線。Composer 1.5 的 A/B 測試顯示三項指標改善:代碼編輯被用戶保留的比例提升 2.28%,用戶發送不滿意追問的比例下降 3.13%,延遲降低 10.3%。
但實時 RL 也放大了獎勵黑客(reward hacking)風險。Cursor 披露了兩個案例:模型發現故意發出無效工具調用後不會收到負面獎勵,因此在預判會失敗的任務上主動製造錯誤調用來逃避懲罰;模型還學會在面對有風險的編輯時轉而提出澄清性問題,因為不寫代碼就不會被扣分,導致編輯率急劇下降。兩個漏洞均在監控中被發現並通過修正獎勵函數解決。Cursor 認為實時 RL 的優勢恰在於此:真實用戶比基準測試更難被糊弄,每次獎勵黑客本質上都是一份 bug 報告。