Cursorが「ブートストラップ」トレーニング法を公開:旧Composerを使って新モデルに環境を構築、Terminal-Benchが14ポイント向上

BlockBeatNews

動察 Beating 監測によると、Cursor は Composer シリーズモデルのトレーニングテクニックの一つを公開しました:前世代のモデルを使って次世代の強化学習(RL)のために自動的に動作環境を構築する方法です。

Composer 2 のトレーニング時、Cursor は Composer 1.5 を用いてこの作業を行い、これを autoinstall と呼びます。

RL のトレーニングには動作可能なコード環境が必要です。環境が整わないと、モデルはトークンをバグ修正に無駄に使い、学習効果が得られません;極端な場合、環境が全く動作しなくなり、トレーニング全体の計算資源が無駄になります。

autoinstall はこの問題を二段階で解決します:第一段階では、エージェントがコードリポジトリのドキュメントと設定を読み取り、検証コマンドとその期待出力を10個提案します;第二段階では、別のエージェントがその中から3つのコマンドを選び、ゼロから環境を構築してコマンドを実行できる状態にします。

第二段階は最大5回リトライし、すべて失敗した場合はその環境を破棄します。

環境構築の過程で、エージェントは不足している依存関係を積極的に補います:偽のデータベーステーブルを作成したり、S3の代わりに MinIO の設定を作成したり、Docker コンテナをサイドカーサービスとして起動したり、さらにはプレースホルダー画像を生成したりします。

この全工程を、ブロックチェーンプロジェクトの celo-org/celo-monorepo を例に示し、エージェントが最初の環境構築失敗後に、二回目には認証を回避するためのモックユーザーを自動作成し、最終的にテストを成功させる様子を解説しています。

Composer 2 は Terminal-Bench(モデル構築・開発環境の能力を測るベンチマーク)で 61.7% の得点を獲得し、Composer 1.5 の 47.9% より約 14ポイント高い結果を出しました。

Cursor は今後、旧版の Composer もより多くのトレーニング工程に参加させる計画を示しており、データ前処理、運用管理、アーキテクチャの調整などを含める予定です。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

EUは5月7日にAI生成ディープフェイクのポルノを禁止

新華社によると、5月7日、EU議会の議員と加盟国は、人工知能システムがディープフェイクのポルノコンテンツを生成することを禁止することで合意に達した。この禁止は、2024年の人工知能法の改正案に盛り込まれる予定だ。欧州議会

GateNews8分前

テザーがQVAC MedPsyの医療AIモデルをリリースし、17Bパラメータ版で62.62のスコアを達成

Odailyによると、Tether AI Research Groupは、クラウドに依存せずにスマートフォンやウェアラブル端末上でローカル実行することを目的とした医療AIモデル「QVAC MedPsy」をリリースした。17億パラメータ版は7つの医療ベンチマークで62.62を獲得し、GoogleのMedGemma-1.5-4Bを11.42 poi上回った。

GateNews28分前

B.AI API、OpenAIのリリースから48時間以内にGPT-5.5 Instantを含む4つの新モデルを発表

B.AI APIは、新しい4つのモデルを発表しました。GPT-5.5 Instant、DeepSeek-v3.2、MiniMax-M2.7、そしてGLM-5.1です。GPT-5.5 Instantは、OpenAIのリリースから48時間以内に基盤となる適応とインターフェース統合を完了し、遅延ゼロでのアクセスを可能にしました。

GateNews33分前

テザーの17億ドル規模の医療AIモデルが、今日16倍の規模の競合他社を上回る

TetherのAI研究チームによると、同社は本日、クラウドへの依存なしにスマートフォンやウェアラブルでローカル展開できる、QVAC MedPsyシリーズの医療用言語モデルを公開しました。1.7Bパラメータ版は7つの医療ベンチマークで62.62を記録し、Google MedGemma-4Bを上回りました

GateNews44分前

AnthropicのプレIPOバリュエーションが1.2兆ドルに到達し、OpenAIを20%上回る

Odailyによると、ブロックチェーンを基盤としたプレIPO市場におけるAnthropicの推定評価額は12兆ドルに達し、OpenAIを約20%上回りました。この企業がこの評価額で上場した場合、市場総額で世界的に上場している企業として第11位にランクインし、Appleの後に続きます。

GateNews49分前

韓国の株式ラリーはAIブームで世界市場を上回る

韓国の株式市場は、人工知能関連の半導体銘柄がけん引する類を見ない上昇を経験しており、KOSPI指数は今年78%上昇して、Axiosの分析で引用されたFinancial Modeling Prepのデータによれば、世界の他の主要市場すべてを上回っています。 AI

CryptoFrontier57分前
コメント
0/400
コメントなし