Xiaomi Tiết lộ Chi tiết Đào tạo của Mẫu 1T MiMo-V2-Pro: Hàng nghìn GPU Được sử dụng, Không có Cấp độ công việc hoặc Hạn chót

robot
Đang tạo bản tóm tắt

Theo giám sát của Dongcha Beating, Luo Fuli, trưởng nhóm mô hình lớn của Xiaomi, tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng mô hình MiMo-V2-Pro có tổng số tham số là 1T, sử dụng hàng nghìn GPU để đào tạo.
Cô tin rằng quy mô 1T là mức cơ bản để đạt hiệu suất gần như Claude Opus 4.6 và đảm bảo bước vào giai đoạn tiếp theo của cuộc thi tác nhân.
Về mặt kỹ thuật, phiên bản Pro đẩy tỷ lệ chú ý toàn cục so với chú ý trượt cửa sổ sang tỷ lệ thưa cực kỳ là 7:1, kiểm soát chi phí suy luận cho các văn bản dài trong khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (Multi-Token Prediction) để tận dụng sức mạnh tính toán dư thừa nhằm tăng tốc suy luận.
Về mặt quản lý, chỉ khoảng 30 đến 40 trong số trăm thành viên của nhóm MiMo tham gia trực tiếp vào các vòng lặp cốt lõi, không có cấp độ công việc rõ ràng, phân chia nhóm rõ ràng hoặc hạn chót giao hàng.
Khi gặp các vấn đề số không ổn định như sự thay đổi đột ngột trong mất mát đào tạo, nhóm chọn dừng đào tạo để xử lý sự cố, dù điều đó có nghĩa là dừng trong một hoặc hai tuần và phải chịu chi phí tính toán hàng triệu.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim