Cursor розкриває метод тренування «самозавантаження»: використання старого Composer для створення середовища нової моделі, Terminal-Bench підвищився на 14 пунктів

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, Cursor опублікував один з тренувальних трюків серії моделей Composer: автоматичне створення робочого середовища для підкріплювального навчання (RL) за допомогою попередньої моделі для наступної. Під час тренування Composer 2 Cursor використовував Composer 1.5 для виконання цієї задачі, називаючи це autoinstall.

Тренування RL потребує робочого коду. Якщо середовище налаштоване погано, модель витрачає токени на пошук помилок, і нічого не навчається; у крайніх випадках середовище зовсім не працює, і вся обчислювальна потужність витрачається даремно. autoinstall вирішує цю проблему у два кроки: перший — агент читає документацію та конфігурацію коду, пропонуючи 10 команд для перевірки та очікуваний вивід; другий — інший агент бере 3 з цих команд і налаштовує середовище з нуля до тих пір, поки команда не запуститься. Другий крок має максимум 5 спроб, якщо всі провалилися — середовище відкидається.

Під час налаштування середовища агент активно доповнює відсутні залежності: підробляє таблиці бази даних, створює конфігурацію MinIO як заміну S3, запускає Docker-контейнери для ролі сайдкарів, навіть генерує заповнювальні зображення. У статті на прикладі блокчейн-проекту celo-org/celo-monorepo показано весь процес: після невдачі на першому етапі агент самостійно створює мокових користувачів для обходу аутентифікації і врешті-решт успішно запускає тест.

Composer 2 у тесті Terminal-Bench (базовий тест на здатність моделі створювати робоче середовище) набрав 61,7%, що на майже 14 відсоткових пунктів вище за 47,9% Composer 1.5. Cursor заявляє, що у майбутньому планується залучити стару версію Composer до більшої кількості етапів тренування, включаючи попередню обробку даних, управління запуском та оптимізацію архітектури.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити