Xiaomi Reveals MiMo-V2-Pro Training Details: 1T Model Parameters, Thousands of GPUs Deployed

Gate News message, April 24 — Xiaomi’s large language model team lead Luo Fuli disclosed in an in-depth interview that the MiMo-V2-Pro model has 1 trillion parameters in total and required thousands of GPUs for training. She noted that the 1T scale represents the minimum threshold to achieve performance approaching Claude Opus 4.6 level and secure a competitive entry ticket for the next phase of AI agents.

Technically, the Pro version employs an extreme sparse attention mechanism with a 7:1 ratio between global attention and sliding window attention, controlling inference costs for long-context processing. The model also retains the MTP (Multi-Token Prediction) architecture to leverage surplus compute power for faster inference.

On the management side, the 100-person MiMo team has only 30-40 people directly engaged in core iterations. The team operates without formal hierarchies or explicit sub-group divisions and delivery deadlines. When encountering unstable numerical issues such as training loss spikes, the team prioritizes halting training for investigation, even if it means stopping operations for one or two weeks and incurring millions of dollars in compute costs.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Опрос POLITICO: 45% американців вважають криптоінвестиції надто ризикованими, 50% більше довіряють банкам

Згідно з опитуванням POLITICO, 45% американців вважають, що інвестиції в криптовалюти не варті ризику, і приблизно 50% заявляють, що більше довіряють традиційним банкам у частині збереження своїх грошей. Окрім того, у цьому опитуванні 44% респондентів вважають, що штучний інтелект розвивається надто швидко,

GateNews5год тому

Amazon розширює співпрацю з OpenAI: моделі з’являться в Bedrock, а угода з Microsoft у форматі ексклюзиву завершується

OpenAI 3 травня оголосила про розширення співпраці з хмарними сервісами Amazon (AWS), у межах якої моделі OpenAI та кодувальні агенти Codex буде надано клієнтам AWS через Amazon Bedrock. Згідно з повідомленнями CNBC, це розширення є ключовим наступним кроком після того, як наприкінці квітня OpenAI та Microsoft припинили хмарний ексклюзивний контракт. Таким чином OpenAI переходить від формату «єдиного хмара-партнера — Microsoft» до багатохмарного розгортання. AWS тим часом уже завершила початкову інтеграцію продуктів OpenAI в платформу Bedrock. Передумови: завершення ексклюзивного контракту OpenAI—Microsoft, IP-ліцензію продовжено до 2032 року Наприкінці квітня OpenAI та Microsoft погодили нову угоду: попередня структура «Microsoft має ексклюзивний доступ до продуктів і IP OpenAI» завершилася, а…

ChainNewsAbmedia6год тому

Дослідники розгорнули технологію DPN-LE, щоб редагувати риси особистості ШІ, змінюючи лише 0,5% нейронів

За даними BlockBeats, 3 травня дослідник ШІ Браян Роеммеле повідомив, що його компанія Zero-Human запровадила технологію DPN-LE (Dual Personality Neuron Localization and Editing), щоб точно налаштувати

GateNews7год тому

Клод перевіряє годинник кожні 15 хвилин після отримання доступу до інструменту синхронізації часу

За словами розробника Ом Пателя, Claude AI почав часто звіряти час після отримання доступу до часового інструмента 3 травня: модель перевіряла його кожні 15 хвилин. Це спостереження підкреслює, що раніше великі мовні моделі не мали вбудованого відчуття часу й не знали про поточний час або

GateNews8год тому

Founders Fund закриває флагманський фонд на 6 мільярдів доларів — найбільший з моменту заснування — 3 травня

За даними Bloomberg, Founders Fund завершив раунд збору коштів для свого останнього флагманського фонду на 6 мільярдів доларів 3 травня, що суттєво перевищило його попередній фонд приблизно на 3,4 мільярда доларів. Фонд, співзасновником якого є мільярдер Пітер Тіл, буде зосереджений на секторах із високими темпами зростання, включно з штучним

GateNews8год тому

Останній опит POLITICO: 45% американців вважають інвестування в криптовалюту надто ризикованим, 44% турбуються, що ШІ розвивається надто швидко

Згідно з опитуванням POLITICO, попри те, що індустрії ШІ та криптовалют вкладають значні кошти в політичне фінансування виборів до проміжного складу Конгресу США у 2026 році, американська громадськість значною мірою залишається налаштованою скептично щодо обох секторів. Опитування показало, що 45% американців вважають, що інвестування в криптовалюту не є на суму

GateNews9год тому
Прокоментувати
0/400
Немає коментарів