MiMo-V2-Pro nền tảng có số lượng tham số đạt 1T, sử dụng hàng nghìn GPU để huấn luyện, mục tiêu gần bằng Claude Opus 4.6, nhằm giành vé tham gia vòng cạnh tranh của Agent giai đoạn tiếp theo. Trên phương diện kỹ thuật, sẽ đẩy tỷ lệ giữa chú ý toàn cục và chú ý cửa sổ trượt lên tới 7:1, đạt mức cực kỳ th sparse, kiểm soát chi phí suy luận văn bản dài, và tiếp tục sử dụng kiến trúc MTP để tăng tốc suy luận. Về mặt quản lý, đội ngũ MiMo gồm khoảng một trăm người chỉ có ba bốn mươi người tham gia trực tiếp vào các vòng lặp cốt lõi, thiếu cấp bậc và deadline rõ ràng, khi gặp phải sự biến động trong loss huấn luyện sẽ dừng huấn luyện để kiểm tra, có thể dừng một hoặc hai tuần, tiêu tốn hàng triệu sức mạnh tính toán.

MeNews

2026-04-24 06:01:33

Đang tạo bản tóm tắt

Tin tức ME News, ngày 24 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng, mô hình MiMo-V2-Pro có tổng số tham số đạt 1T, sử dụng hàng nghìn GPU để huấn luyện.
Cô ấy cho rằng, quy mô 1T là mức tối thiểu để hiện thực hóa gần như mức độ của Claude Opus 4.6, đồng thời giành vé tham gia vòng cạnh tranh của Agent ở giai đoạn tiếp theo.
Về mặt kỹ thuật, phiên bản Pro sẽ đẩy tỷ lệ chú ý toàn cục và chú ý theo cửa sổ trượt lên mức tối đa 7:1, tạo ra tỷ lệ thưa thớt cực hạn, kiểm soát chi phí suy luận của văn bản dài khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (dự đoán nhiều Token) để tận dụng sức mạnh tính toán dư thừa tăng tốc suy luận.
Về mặt quản lý, trong nhóm MiMo gồm khoảng một trăm người, chỉ có ba bốn mươi người trực tiếp tham gia vào các vòng lặp cốt lõi, nhóm không thiết lập cấp bậc chức vụ, cũng không có phân chia nhóm rõ ràng hay hạn chót giao hàng.
Khi gặp các vấn đề không ổn định như biến động loss trong quá trình huấn luyện, nhóm sẽ chọn dừng huấn luyện để kiểm tra, dù phải dừng một hoặc hai tuần, tiêu tốn hàng triệu chi phí tính toán.
(Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
139.61K Phổ biến
#
CryptoMarketSeesVolatility
209.7K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.84K Phổ biến
#
rsETHAttackUpdate
62.91K Phổ biến
#
US-IranTalksStall
165.29K Phổ biến

Ghim

sơ đồ trang web

Xiaomi tiết lộ chi tiết đào tạo mô hình 1T MiMo-V2-Pro: sử dụng hàng nghìn calo, không cấp bậc, không hạn chót

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim