Cursor раскрывает метод обучения «самозакрепления»: использование старого Composer для создания среды для новой модели, Terminal-Bench вырос на 14 пунктов

BlockBeatNews

По данным мониторинга Beating, Cursor опубликовал один из тренировочных трюков серии моделей Composer: использование предыдущего поколения модели для автоматической сборки рабочей среды для следующего поколения с помощью обучения с подкреплением (RL). При обучении Composer 2 Cursor использовал Composer 1.5 для выполнения этой задачи, называя это autoinstall.

Обучение с подкреплением требует рабочей кодовой среды. Если среда настроена неправильно, модель тратит токены на исправление ошибок, и ничего не учится; в крайних случаях среда полностью не запускается, и вся вычислительная мощность тратается впустую. autoinstall решает эту проблему в два шага: первый — агент читает документацию и конфигурацию кодовой базы, предлагая 10 команд для проверки и ожидаемый вывод; второй — другой агент берет 3 из этих команд и настраивает среду с нуля до тех пор, пока команда не выполнится. Второй шаг最多 5 раз повторяется, при полном провале среда отбрасывается.

Во время настройки среды агент активно дополняет недостающие зависимости: подделывает таблицы базы данных, создает конфигурацию MinIO вместо S3, запускает контейнер Docker в качестве sidecar-сервиса, а также генерирует заглушки изображений. В статье на примере блокчейн-проекта celo-org/celo-monorepo показан весь процесс: после неудачной первой попытки агент во второй создает моковых пользователей, обходя аутентификацию, и в итоге тест проходит.

Composer 2 набрал 61,7% в Terminal-Bench (бенчмарк, оценивающий способность модели создавать и развивать среду), что на 14 процентных пунктов выше, чем 47,9% у Composer 1.5. Cursor заявил, что в будущем планируется привлечь более старую версию Composer к участию в дополнительных этапах обучения, включая предварительную обработку данных, управление запуском и оптимизацию архитектуры.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Public приобретает приложение Treasury AI-инвестплатформы, чтобы расширить криптоторговлю

По данным ChainCatcher, Public объявила о приобретении платформы для AI-инвестиций Treasury App, чтобы усилить свой брокерский бизнес, ориентированный на ИИ. Сумма сделки не раскрывалась. В настоящее время Public поддерживает торги акциями, облигациями и криптовалютами, включая Bitcoin, Ethereum, а

GateNews37м назад

Blitzy завершила $200M раунд финансирования при участии Northzone

По данным ChainCatcher, Blitzy — компания по разработке кода с помощью ИИ, сооснователем которой является бывший архитектор Nvidia Сид Пардэши, — завершила раунд финансирования на $200 млн, который возглавила Northzone. В раунде также участвовали Battery Ventures, Jump Capital и Morgan Creek Digital. Платформа может анализировать сложные системы с

GateNews1ч назад

ЕС запрещает порно с дипфейками, сгенерированными с помощью ИИ, 7 мая

Согласно Xinhua News Agency, 7 мая депутаты Европарламента и представители стран ЕС достигли консенсуса о запрете системам искусственного интеллекта генерировать порнографический контент с использованием дипфейков. Запрет будет включён в поправки к Закону об искусственном интеллекте 2024 года. Европейский парламент

GateNews1ч назад

Tether выпустила медицинскую AI-модель QVAC MedPsy и набрала 62,62 балла в версии с 17 млрд параметров

По данным Odaily, Tether AI Research Group выпустила QVAC MedPsy — медицинскую AI-модель, предназначенную для работы локально на смартфонах и носимых устройствах без зависимости от облака. Версия с 1,7 миллиарда параметров набрала 62,62 балла по семи медицинским бенчмаркам, обойдя MedGemma-1.5-4B от Google на 11,42 poi

GateNews2ч назад

Запуск B.AI API: представлены четыре новых модели, включая GPT-5.5 Instant, в течение 48 часов после релиза OpenAI

API B.AI запустил четыре новые модели: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 и GLM-5.1. GPT-5.5 Instant завершила базовую адаптацию и интеграцию интерфейса в течение 48 часов после релиза OpenAI, обеспечив мгновенный доступ без задержек к

GateNews2ч назад

Модель медицинского ИИ от Tether на 1,7 млрд превосходит сегодня конкурента в 16 раз большего размера

По данным исследовательской команды Tether по ИИ, сегодня компания запустила серии медицинских языковых моделей QVAC MedPsy, предназначенные для локального развертывания на смартфонах и носимых устройствах без облачной зависимости. Версия с 1,7 млрд параметров набрала 62,62 по семи медицинским бенчмаркам, превзойдя Google MedGemma-4B

GateNews2ч назад
комментарий
0/400
Нет комментариев