10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Cursor披露「自舉」訓練法:用舊Composer給新模型搭環境,Terminal-Bench漲14個點
根據動察 Beating 監測,Cursor 公開了 Composer 系列模型的一個訓練技巧:用上一代模型為下一代的強化學習(RL)自動搭建可運行環境。訓練 Composer 2 時,Cursor 用 Composer 1.5 來完成這項工作,稱之為 autoinstall。
RL 訓練需要可運行的程式碼環境。環境搭不好,模型把 token 浪費在調 bug 上,學不到東西;極端情況下環境徹底跑不通,整輪訓練的算力白燒。autoinstall 分兩步解決這個問題:第一步,一個 agent 讀程式碼庫的文件和配置,提出 10 條驗證命令及預期輸出;第二步,另一個 agent 拿到其中 3 條命令,從零開始配置環境直到命令跑通。第二步最多重試 5 次,全部失敗則丟棄該環境。
配置環境的過程中,agent 會主動補齊缺失依賴:偽造資料庫表、創建 MinIO 配置替代 S3、啟動 Docker 容器充當 sidecar 服務,甚至生成佔位圖片。博文以區塊鏈項目 celo-org/celo-monorepo 為例演示了全流程,agent 在第一輪配置環境失敗後,第二輪自行創建 mock 用戶繞過認證,最終跑通測試。
Composer 2 在 Terminal-Bench(測試模型搭建開發環境能力的基準)上得分 61.7%,比 Composer 1.5 的 47.9% 高出近 14 個百分點。Cursor 表示未來計劃讓舊版 Composer 參與更多訓練環節,包括數據預處理、運行管理和架構調優。