Xiaomi tiết lộ chi tiết đào tạo mô hình 1T MiMo-V2-Pro: sử dụng hàng nghìn calo, không cấp bậc, không hạn chót

Theo theo dõi Beating, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, đã tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng, mô hình MiMo-V2-Pro có tổng tham số đạt 1T, sử dụng hàng nghìn GPU để huấn luyện.
Cô ấy cho rằng, quy mô 1T là mức tối thiểu để hiện thực hóa gần mức Claude Opus 4.6, đồng thời giành vé tham gia cạnh tranh cho giai đoạn tiếp theo của Agent.

Về mặt kỹ thuật, phiên bản Pro đẩy tỷ lệ giữa chú ý toàn cục và chú ý theo cửa sổ trượt lên tới 7:1, đạt mức cực hạn của tỷ lệ thưa, kiểm soát chi phí suy luận cho văn bản dài khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (dự đoán nhiều token) để tận dụng sức mạnh tính toán dư thừa tăng tốc suy luận.

Về mặt quản lý, trong nhóm MiMo gồm khoảng một trăm người, chỉ có ba bốn mươi người trực tiếp tham gia vào các vòng lặp cốt lõi, nhóm không thiết lập cấp bậc chức vụ, cũng không có phân chia nhóm rõ ràng hay hạn chót giao hàng. Khi gặp các vấn đề không ổn định như biến động loss trong quá trình huấn luyện, nhóm sẽ chọn dừng huấn luyện để kiểm tra, dù phải dừng một hoặc hai tuần, tiêu tốn hàng triệu chi phí tính toán.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim