Xiaomi Cắt Giảm Chi Phí API MiMo 80% Nhờ Bộ Nhớ Đệm Phân Cấp, Tương Đương Mô Hình GQA 10 Tầng

DEEPSEEK-0,76%

Theo Beating, Xiaomi đã tiết lộ các kỹ thuật tối ưu hóa cốt lõi cho API MiMo-V2.5 của mình sau đợt cắt giảm giá gần đây đồng bộ với DeepSeek. Công cụ suy luận chịu tải cao của công ty vẫn duy trì lợi nhuận nhờ kiến trúc attention lai và tối ưu hóa bộ nhớ đệm KV phân cấp.

Khung suy luận của Xiaomi đạt mức giảm 80% chi phí cache bằng cách triển khai tối ưu hóa phân cấp cho sliding window attention (SWA), đồng thời tăng dung lượng token lên 5 lần. Mô hình MiMo-V2.5-Pro gồm 70 lớp, sử dụng tỷ lệ thưa 1:7 giữa các lớp global attention (GA) và SWA, thực hiện các phép tính prefill tương đương với mô hình global GQA truyền thống 10 lớp, qua đó giảm đáng kể chi phí suy luận.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận