Роулли: Большие модели вступают в эпоху пост-обучения, соотношение вычислительных мощностей для предобучения и пост-обучения у ведущих команд достигает 1:1

robot
Генерация тезисов в процессе

ME Новости, 24 апреля (UTC+8), согласно мониторингу 动察 Beating, руководитель команды больших моделей Xiaomi 罗福莉 отметил, что конкуренция в области больших моделей полностью перешла от эпохи Chat, доминируемой предварительным обучением, к эпохе Агентов, управляемых пост-обучением (Post-train). Текущий ключевой вопрос — «как масштабировать усиленное обучение (RL) на Агенте». Этот сдвиг парадигмы напрямую приводит к перестройке распределения вычислительных ресурсов. 罗福莉 сообщил, что в эпоху Chat соотношение ресурсов для исследований, предварительного обучения и пост-обучения составляло примерно 3:5:1; в нынешнюю эпоху Агентов разумное распределение ресурсов стало 3:1:1, то есть инвестиции в предварительное и пост-обучение практически равны, и ведущие команды по моделям уже вкладывают в эти два направления в соотношении 1:1. В то же время требования к системной архитектуре также значительно изменились. Ранее инфраструктура RL в основном основывалась на «двигателе вывода модели», обрабатывающем чистый текст; сейчас инфраструктура должна быть ориентирована на «Агента», поддерживать диспетчеризацию гетерогенных кластеров и быть способной терпеть неопределенность, вызванную прерываниями Агентов в сложных рабочих потоках из-за различных неконтролируемых факторов. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить