Xiaomi tiết lộ chi tiết đào tạo mô hình 1T MiMo-V2-Pro: sử dụng hàng nghìn calo, không cấp bậc, không hạn chót

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 24 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, trưởng nhóm mô hình lớn của Xiaomi, Lô Phúc Lợi, tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng, mô hình MiMo-V2-Pro có tổng số tham số đạt 1T, sử dụng hàng nghìn GPU để huấn luyện.
Cô ấy cho rằng, quy mô 1T là mức tối thiểu để hiện thực hóa gần như mức độ của Claude Opus 4.6, đồng thời giành vé tham gia vòng cạnh tranh của Agent ở giai đoạn tiếp theo.
Về mặt kỹ thuật, phiên bản Pro sẽ đẩy tỷ lệ chú ý toàn cục và chú ý theo cửa sổ trượt lên mức tối đa 7:1, tạo ra tỷ lệ thưa thớt cực hạn, kiểm soát chi phí suy luận của văn bản dài khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (dự đoán nhiều Token) để tận dụng sức mạnh tính toán dư thừa tăng tốc suy luận.
Về mặt quản lý, trong nhóm MiMo gồm khoảng một trăm người, chỉ có ba bốn mươi người trực tiếp tham gia vào các vòng lặp cốt lõi, nhóm không thiết lập cấp bậc chức vụ, cũng không có phân chia nhóm rõ ràng hay hạn chót giao hàng.
Khi gặp các vấn đề không ổn định như biến động loss trong quá trình huấn luyện, nhóm sẽ chọn dừng huấn luyện để kiểm tra, dù phải dừng một hoặc hai tuần, tiêu tốn hàng triệu chi phí tính toán.
(Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim