Cursor розкриває метод тренування «самозавантаження»: використання старого Composer для створення середовища нової моделі, Terminal-Bench підвищився на 14 пунктів

BlockBeatNews

Згідно з моніторингом Beating, Cursor опублікував один з тренувальних трюків серії моделей Composer: автоматичне створення робочого середовища для підкріплювального навчання (RL) за допомогою попередньої моделі для наступної. Під час тренування Composer 2 Cursor використовував Composer 1.5 для виконання цієї задачі, називаючи це autoinstall.

Тренування RL потребує робочого коду. Якщо середовище налаштоване погано, модель витрачає токени на пошук помилок, і нічого не навчається; у крайніх випадках середовище зовсім не працює, і вся обчислювальна потужність витрачається даремно. autoinstall вирішує цю проблему у два кроки: перший — агент читає документацію та конфігурацію коду, пропонуючи 10 команд для перевірки та очікуваний вивід; другий — інший агент бере 3 з цих команд і налаштовує середовище з нуля до тих пір, поки команда не запуститься. Другий крок має максимум 5 спроб, якщо всі провалилися — середовище відкидається.

Під час налаштування середовища агент активно доповнює відсутні залежності: підробляє таблиці бази даних, створює конфігурацію MinIO як заміну S3, запускає Docker-контейнери для ролі сайдкарів, навіть генерує заповнювальні зображення. У статті на прикладі блокчейн-проекту celo-org/celo-monorepo показано весь процес: після невдачі на першому етапі агент самостійно створює мокових користувачів для обходу аутентифікації і врешті-решт успішно запускає тест.

Composer 2 у тесті Terminal-Bench (базовий тест на здатність моделі створювати робоче середовище) набрав 61,7%, що на майже 14 відсоткових пунктів вище за 47,9% Composer 1.5. Cursor заявляє, що у майбутньому планується залучити стару версію Composer до більшої кількості етапів тренування, включаючи попередню обробку даних, управління запуском та оптимізацію архітектури.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

ЄС забороняє порнографію з дипфейками, створеними за допомогою ШІ, 7 травня

За повідомленням агентства Xinhua News Agency, 7 травня члени Європейського парламенту та держави-члени досягли консенсусу щодо заборони системам штучного інтелекту створювати порно-контент із використанням deepfake. Заборону буде включено до поправок до Закону ЄС про штучний інтелект 2024 року. Європейський парламент

GateNews8хв. тому

Tether випускає медичну AI-модель QVAC MedPsy та досягає оцінки 62,62 на версії з 17 млрд параметрів

За даними Odaily, Tether AI Research Group випустила QVAC MedPsy — медичну AI-модель, призначену для локального запуску на смартфонах і носимих пристроях без залежності від хмари. Версія на 1,7 мільярда параметрів набрала 62,62 на семи медичних бенчмарках, випередивши MedGemma-1.5-4B від Google на 11,42 poi

GateNews28хв. тому

B.AI запускає чотири нові моделі, зокрема GPT-5.5 Instant, протягом 48 годин після релізу OpenAI

B.AI API запустив чотири нові моделі: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 і GLM-5.1. GPT-5.5 Instant завершив базову адаптацію та інтеграцію інтерфейсу протягом 48 годин після релізу OpenAI, забезпечивши доступ без затримок до

GateNews33хв. тому

Модель медичної AI від Tether на 1,7 млрд перевершила сьогодні конкурента у 16 разів більшого розміру

За даними AI-дослідницької команди Tether, сьогодні компанія запустила медичні мовні моделі серії QVAC MedPsy, створені для локального розгортання на смартфонах і носимих пристроях без залежності від хмари. Версія з 1,7 млрд параметрів набрала 62,62 на семи медичних бенчмарках, перевершивши Google MedGemma-4B

GateNews44хв. тому

Оцінка Anthropic під час передпублічного розміщення (Pre-IPO) досягла $1,2 трильйона, перевищивши OpenAI на 20%

За даними Odaily, опосередкована оцінка Anthropic на блокчейн-ринку перед IPO досягла 1,2 трильйона доларів, обігнавши OpenAI приблизно на 20%. Якщо компанія вийде на біржу за цією оцінкою, вона посідатиме 11-те місце серед найбільших публічних компаній у світі за ринковою капіталізацією, поступаючись Apple,

GateNews49хв. тому

Фондове ралі в Південній Кореї випереджає глобальні ринки на тлі буму ШІ

Фондовий ринок Південної Кореї демонструє безпрецедентні зростання завдяки акціям напівпровідників, пов’язаним із штучним інтелектом: індекс KOSPI зріс на 78% цього року, випередивши всі інші ключові ринки у світі, згідно з даними Financial Modeling Prep, на які посилається аналіз Axios. AI

CryptoFrontier57хв. тому
Прокоментувати
0/400
Немає коментарів