Аннотация: В интервью с Луо Фули описывается Xiaomi MiMo-V2-Pro, модель с триллионом параметров, ориентированная на возможности уровня Claude Opus 4.6, с большим количеством GPU. Она использует экстремально разреженное внимание с MTP; операционные риски включают небольшую, недостаточно структурированную команду, которая останавливает обучение при скачках потерь, что влечет за собой большие расходы.MiMo-V2-Pro, по сообщениям, имеет 1 трлн параметров, обученных на тысячах GPU, стремясь к уровню производительности Claude Opus 4.6. Она использует экстремально разреженное внимание (7:1) с MTP; небольшая команда останавливает нестабильное обучение для устранения неполадок, рискуя миллионами в расходах.

AirdropBlackHole

2026-04-24 06:31:18

Генерация тезисов в процессе

Согласно мониторингу Dongcha Beating, руководитель команды больших моделей Xiaomi Luo Fuli в своем первом подробном интервью раскрыла, что базовая модель MiMo-V2-Pro имеет общее количество параметров 1 триллион, использующих тысячи GPU для обучения. Она считает, что масштаб в 1 триллион — это базовая линия для достижения производительности, близкой к Claude Opus 4.6, и для выхода на следующий этап конкуренции агентов. На техническом уровне версия Pro увеличивает соотношение глобального внимания к скользящему окну внимания до экстремального разреженного соотношения 7:1, контролируя стоимость рассуждений для длинных текстов, одновременно расширяя количество параметров, и продолжает использовать архитектуру MTP (Multi-Token Prediction) для использования избыточных вычислительных мощностей для ускоренного вывода. В управленческом плане только около 30-40 из ста участников команды MiMo непосредственно участвуют в основных итерациях, при этом отсутствуют установленные уровни должностей, четкое деление на группы или сроки сдачи. При возникновении нестабильных числовых проблем, таких как внезапные изменения в потере обучения, команда предпочитает приостановить обучение для устранения неполадок, даже если это означает остановку на одну или две недели и миллионы затрат на вычислительные ресурсы.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
149.83K Популярность
#
CryptoMarketSeesVolatility
217.06K Популярность
#
IsraelStrikesIranBTCPlunges
31.2K Популярность
#
rsETHAttackUpdate
66.11K Популярность
#
US-IranTalksStall
250.23K Популярность

Закрепить

Карта сайта

Xiaomi раскрывает детали обучения модели 1T MiMo-V2-Pro: использовано тысячи GPU, отсутствуют уровни задач и сроки выполнения

Популярные темы

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить