Cursor披露「自舉」訓練法:用舊Composer給新模型搭環境,Terminal-Bench漲14個點

区块律动

根據動察 Beating 監測,Cursor 公開了 Composer 系列模型的一個訓練技巧:用上一代模型為下一代的強化學習(RL)自動搭建可運行環境。訓練 Composer 2 時,Cursor 用 Composer 1.5 來完成這項工作,稱之為 autoinstall。

RL 訓練需要可運行的程式碼環境。環境搭不好,模型把 token 浪費在調 bug 上,學不到東西;極端情況下環境徹底跑不通,整輪訓練的算力白燒。autoinstall 分兩步解決這個問題:第一步,一個 agent 讀程式碼庫的文件和配置,提出 10 條驗證命令及預期輸出;第二步,另一個 agent 拿到其中 3 條命令,從零開始配置環境直到命令跑通。第二步最多重試 5 次,全部失敗則丟棄該環境。

配置環境的過程中,agent 會主動補齊缺失依賴:偽造資料庫表、創建 MinIO 配置替代 S3、啟動 Docker 容器充當 sidecar 服務,甚至生成佔位圖片。博文以區塊鏈項目 celo-org/celo-monorepo 為例演示了全流程,agent 在第一輪配置環境失敗後,第二輪自行創建 mock 用戶繞過認證,最終跑通測試。

Composer 2 在 Terminal-Bench(測試模型搭建開發環境能力的基準)上得分 61.7%,比 Composer 1.5 的 47.9% 高出近 14 個百分點。Cursor 表示未來計劃讓舊版 Composer 參與更多訓練環節,包括數據預處理、運行管理和架構調優。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

歐盟在 5 月 7 日禁止 AI 生成的深偽色情內容

根據新華社,5 月 7 日,歐洲議會議員與成員國達成共識,禁止人工智慧系統生成深度偽造色情內容。該禁令將被納入對 2024 年《人工智慧法案》的修正之中。歐洲議會

GateNews8分鐘前

Tether 發布 QVAC MedPsy 醫療 AI 模型,並在 17B 參數版本上取得 62.62 分

根據 Odaily,Tether AI Research Group 釋出了 QVAC MedPsy,這是一款醫療 AI 模型,旨在不依賴雲端的情況下可在智慧型手機與穿戴式裝置上本地運行。這款 17 億參數版本在七項醫療基準上取得 62.62 分,表現優於 Google 的 MedGemma-1.5-4B,領先 11.42 poi

GateNews27分鐘前

B.AI API 推出四款新模型,包括在 OpenAI 發布後 48 小時內推出的 GPT-5.5 Instant

B.AI API 已推出四款新模型:GPT-5.5 Instant、DeepSeek-v3.2、MiniMax-M2.7 和 GLM-5.1。GPT-5.5 Instant 在 OpenAI 發布後 48 小時內完成底層適配與介面整合,實現零延遲存取以

GateNews33分鐘前

Tether 的 17 億醫療 AI 模型今天表現優於 16 倍規模的競爭對手

根據 Tether 的 AI 研究團隊,該公司今天推出 QVAC MedPsy 系列醫療語言模型,旨在不依賴雲端的情況下,支援在智慧型手機與穿戴式裝置上進行本地部署。該 17 億參數版本在七項醫療基準上得分 62.62,超越 Google MedGemma-4B

GateNews44分鐘前

Anthropic 預上市估值達到 1.2 萬億美元,較 OpenAI 高出 20%

根據 Odaily,Anthropic 在基於區塊鏈的上市前(pre-IPO)市場中的隱含估值達到 1.2 萬億美元,較 OpenAI 約高出 20%。若公司以此估值上市,其市值將在全球範圍內成為第 11 大最大公開上市公司,位居 Apple 之後,

GateNews48分鐘前

南韓股市反彈在 AI 熱潮推動下,跑贏全球市場

南韓股市正經歷前所未有的漲勢,受人工智慧相關的半導體個股推動。根據 Financial Modeling Prep 的資料、並由 Axios 分析引用,今年 KOSPI 指數上漲 78%,在全球所有其他主要市場之上。 AI

Crypto Frontier56分鐘前
留言
0/400
暫無留言