Команда большой модели Xiaomi заявила, что конкуренция перешла от эпохи чата, основанной на предварительном обучении, к эпохе агентов, основанных на последующем обучении, основное внимание уделяется масштабированию усиленного обучения на агентах. Распределение вычислений изменилось с 3:5:1 (исследования/предварительное обучение/послеобучение) на 3:1:1, при этом вложения в первые две области практически равны, а ведущие команды достигли соотношения 1:1. Инфраструктура также сместилась с фокусом на движок для рассуждений к центру внимания, основанному на агентах, что требует поддержки диспетчеризации гетерогенных кластеров и терпимости к неконтролируемым сбоям агентов в рабочих потоках.

MeNews

2026-04-24 06:20:36

Генерация тезисов в процессе

ME Новости, 24 апреля (UTC+8), согласно мониторингу 动察 Beating, руководитель команды больших моделей Xiaomi 罗福莉 отметил, что конкуренция в области больших моделей полностью перешла от эпохи Chat, доминируемой предварительным обучением, к эпохе Агентов, управляемых пост-обучением (Post-train). Текущий ключевой вопрос — «как масштабировать усиленное обучение (RL) на Агенте». Этот сдвиг парадигмы напрямую приводит к перестройке распределения вычислительных ресурсов. 罗福莉 сообщил, что в эпоху Chat соотношение ресурсов для исследований, предварительного обучения и пост-обучения составляло примерно 3:5:1; в нынешнюю эпоху Агентов разумное распределение ресурсов стало 3:1:1, то есть инвестиции в предварительное и пост-обучение практически равны, и ведущие команды по моделям уже вкладывают в эти два направления в соотношении 1:1. В то же время требования к системной архитектуре также значительно изменились. Ранее инфраструктура RL в основном основывалась на «двигателе вывода модели», обрабатывающем чистый текст; сейчас инфраструктура должна быть ориентирована на «Агента», поддерживать диспетчеризацию гетерогенных кластеров и быть способной терпеть неопределенность, вызванную прерываниями Агентов в сложных рабочих потоках из-за различных неконтролируемых факторов. （Источник: BlockBeats）

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
149.83K Популярность
#
CryptoMarketSeesVolatility
217.06K Популярность
#
IsraelStrikesIranBTCPlunges
31.2K Популярность
#
rsETHAttackUpdate
66.15K Популярность
#
US-IranTalksStall
250.23K Популярность

Закрепить

Карта сайта

Роулли: Большие модели вступают в эпоху пост-обучения, соотношение вычислительных мощностей для предобучения и пост-обучения у ведущих команд достигает 1:1

Популярные темы

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить