Theo Ryan Lee, giám đốc quan hệ nhà phát triển của MiniMax, công ty đã công bố mã nguồn mở MiniMax Sparse Attention (MSA), một thư viện attention hiệu năng cao cho GPU NVIDIA Blackwell (SM100), theo giấy phép MIT. Lee cho biết trọng số mô hình M3 sẽ ra mắt vào Thứ Sáu, ngày 13 tháng 6.
Khi áp dụng cho suy luận ngữ cảnh 1 triệu token của MiniMax-M3, MSA giúp giảm 28,4 lần lượng tính toán attention so với Dense GQA với cấu hình tương đương. Trên GPU H800, thư viện đạt tốc độ pre-fill nhanh hơn 14,2 lần và tăng tốc giải mã 7,6 lần.