Tóm tắt: Cuộc phỏng vấn với Luo Fuli giới thiệu về Xiaomi MiMo-V2-Pro, một mô hình có hàng nghìn tỷ tham số, chủ yếu dựa trên GPU, nhắm đến khả năng tương đương Claude Opus 4.6. Nó sử dụng chú ý thưa cực đoan với MTP; rủi ro vận hành bao gồm một đội ngũ nhỏ, thiếu cấu trúc, dừng huấn luyện khi mất mát tăng cao, gây ra chi phí lớn.MiMo-V2-Pro được cho là có 1 nghìn tỷ tham số được huấn luyện trên hàng nghìn GPU, hướng tới hiệu suất tương đương Claude Opus 4.6. Nó sử dụng chú ý thưa cực đoan (7:1) với MTP; một đội nhỏ dừng huấn luyện không ổn định để khắc phục sự cố, tiềm ẩn rủi ro hàng triệu chi phí.

AirdropBlackHole

2026-04-24 06:31:18

Đang tạo bản tóm tắt

Theo giám sát của Dongcha Beating, Luo Fuli, trưởng nhóm mô hình lớn của Xiaomi, tiết lộ trong cuộc phỏng vấn sâu đầu tiên rằng mô hình MiMo-V2-Pro có tổng số tham số là 1T, sử dụng hàng nghìn GPU để đào tạo.
Cô tin rằng quy mô 1T là mức cơ bản để đạt hiệu suất gần như Claude Opus 4.6 và đảm bảo bước vào giai đoạn tiếp theo của cuộc thi tác nhân.
Về mặt kỹ thuật, phiên bản Pro đẩy tỷ lệ chú ý toàn cục so với chú ý trượt cửa sổ sang tỷ lệ thưa cực kỳ là 7:1, kiểm soát chi phí suy luận cho các văn bản dài trong khi mở rộng số lượng tham số, và tiếp tục sử dụng kiến trúc MTP (Multi-Token Prediction) để tận dụng sức mạnh tính toán dư thừa nhằm tăng tốc suy luận.
Về mặt quản lý, chỉ khoảng 30 đến 40 trong số trăm thành viên của nhóm MiMo tham gia trực tiếp vào các vòng lặp cốt lõi, không có cấp độ công việc rõ ràng, phân chia nhóm rõ ràng hoặc hạn chót giao hàng.
Khi gặp các vấn đề số không ổn định như sự thay đổi đột ngột trong mất mát đào tạo, nhóm chọn dừng đào tạo để xử lý sự cố, dù điều đó có nghĩa là dừng trong một hoặc hai tuần và phải chịu chi phí tính toán hàng triệu.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
153.59K Phổ biến
#
CryptoMarketSeesVolatility
218.96K Phổ biến
#
IsraelStrikesIranBTCPlunges
31.32K Phổ biến
#
rsETHAttackUpdate
67.01K Phổ biến
#
US-IranTalksStall
172.76K Phổ biến

Ghim

sơ đồ trang web

Xiaomi Tiết lộ Chi tiết Đào tạo của Mẫu 1T MiMo-V2-Pro: Hàng nghìn GPU Được sử dụng, Không có Cấp độ công việc hoặc Hạn chót

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim