Xiaomi раскрывает детали обучения модели 1T MiMo-V2-Pro: использовано тысячи GPU, отсутствуют уровни задач и сроки выполнения

robot
Генерация тезисов в процессе

Согласно мониторингу Dongcha Beating, руководитель команды больших моделей Xiaomi Luo Fuli в своем первом подробном интервью раскрыла, что базовая модель MiMo-V2-Pro имеет общее количество параметров 1 триллион, использующих тысячи GPU для обучения. Она считает, что масштаб в 1 триллион — это базовая линия для достижения производительности, близкой к Claude Opus 4.6, и для выхода на следующий этап конкуренции агентов. На техническом уровне версия Pro увеличивает соотношение глобального внимания к скользящему окну внимания до экстремального разреженного соотношения 7:1, контролируя стоимость рассуждений для длинных текстов, одновременно расширяя количество параметров, и продолжает использовать архитектуру MTP (Multi-Token Prediction) для использования избыточных вычислительных мощностей для ускоренного вывода. В управленческом плане только около 30-40 из ста участников команды MiMo непосредственно участвуют в основных итерациях, при этом отсутствуют установленные уровни должностей, четкое деление на группы или сроки сдачи. При возникновении нестабильных числовых проблем, таких как внезапные изменения в потере обучения, команда предпочитает приостановить обучение для устранения неполадок, даже если это означает остановку на одну или две недели и миллионы затрат на вычислительные ресурсы.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить