根據 Beating,Xiaomi 在配合 DeepSeek 的近期降價之後,揭露了其 MiMo-V2.5 API 的核心最佳化技術。該公司的高負載推理引擎透過混合式注意力架構以及分層 KV 快取最佳化來維持獲利能力。
Xiaomi 的推理框架透過對滑動視窗注意力(SWA)導入分層最佳化,使快取成本降低 80%,並將 token 容量提升 5 倍。採用全域注意力(GA)層與 SWA 層之間 1:7 稀疏比例的 70 層 MiMo-V2.5-Pro 模型,其 prefill 計算效能相當於傳統 10 層全域 GQA 模型,能顯著降低推理成本。