Theo giám sát Beating, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng, mô hình MiMo-V2-Pro có tổng số tham số đạt 1T, sử dụng hàng nghìn GPU để huấn luyện. Cô ấy cho rằng, quy mô 1T là mức tối thiểu để hiện thực hóa gần như mức độ của Claude Opus 4.6, đồng thời giành vé tham gia cạnh tranh cho giai đoạn tiếp theo của Agent. Về mặt kỹ thuật, phiên bản Pro sẽ đẩy tỷ lệ giữa chú ý toàn cục và chú ý theo cửa sổ trượt lên đến tỷ lệ cực kỳ thưa 7:1, kiểm soát chi phí suy luận của văn bản dài khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (dự đoán nhiều Token) để tận dụng sức mạnh tính toán dư thừa tăng tốc suy luận. Về mặt quản lý, trong nhóm MiMo gồm khoảng một trăm người, chỉ có ba bốn mươi người trực tiếp tham gia vào các vòng lặp cốt lõi, nhóm không thiết lập cấp bậc chức vụ, cũng không có phân chia nhóm rõ ràng hay giao nhiệm vụ cụ thể.

BlockBeatNews

2026-04-24 05:06:34

Theo theo dõi Beating, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, đã tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng, mô hình MiMo-V2-Pro có tổng tham số đạt 1T, sử dụng hàng nghìn GPU để huấn luyện.
Cô ấy cho rằng, quy mô 1T là mức tối thiểu để hiện thực hóa gần mức Claude Opus 4.6, đồng thời giành vé tham gia cạnh tranh cho giai đoạn tiếp theo của Agent.

Về mặt kỹ thuật, phiên bản Pro đẩy tỷ lệ giữa chú ý toàn cục và chú ý theo cửa sổ trượt lên tới 7:1, đạt mức cực hạn của tỷ lệ thưa, kiểm soát chi phí suy luận cho văn bản dài khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (dự đoán nhiều token) để tận dụng sức mạnh tính toán dư thừa tăng tốc suy luận.

Về mặt quản lý, trong nhóm MiMo gồm khoảng một trăm người, chỉ có ba bốn mươi người trực tiếp tham gia vào các vòng lặp cốt lõi, nhóm không thiết lập cấp bậc chức vụ, cũng không có phân chia nhóm rõ ràng hay hạn chót giao hàng. Khi gặp các vấn đề không ổn định như biến động loss trong quá trình huấn luyện, nhóm sẽ chọn dừng huấn luyện để kiểm tra, dù phải dừng một hoặc hai tuần, tiêu tốn hàng triệu chi phí tính toán.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
139.61K Phổ biến
#
CryptoMarketSeesVolatility
207.53K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.84K Phổ biến
#
rsETHAttackUpdate
62.91K Phổ biến
#
US-IranTalksStall
165.29K Phổ biến

Ghim

sơ đồ trang web

Xiaomi tiết lộ chi tiết đào tạo mô hình 1T MiMo-V2-Pro: sử dụng hàng nghìn calo, không cấp bậc, không hạn chót

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim