จากรายงาน Beating ระบุว่า Xiaomi เปิดเผยเทคนิคการปรับแต่งหลักสำหรับ API MiMo-V2.5 หลังการปรับลดราคาล่าสุดที่สอดคล้องกับ DeepSeek เครื่องมืออนุมาน (inference) ที่รองรับงานโหลดสูงของบริษัทคงความสามารถในการทำกำไรไว้ได้ด้วยสถาปัตยกรรม attention แบบผสมผสานและการเพิ่มประสิทธิภาพ hierarchical KV cache
เฟรมเวิร์กการอนุมานของ Xiaomi ทำให้ต้นทุนแคชลดลง 80% ด้วยการนำการปรับแต่งแบบ hierarchical มาใช้กับ sliding window attention (SWA) พร้อมเพิ่มความจุโทเค็นขึ้น 5 เท่า โดยโมเดล MiMo-V2.5-Pro จำนวน 70 ชั้น ซึ่งใช้สัดส่วนความเบาบาง 1:7 ระหว่างเลเยอร์ global attention (GA) และ SWA จะทำการคำนวณส่วน prefill ได้เทียบเท่ากับโมเดล global GQA แบบ 10 ชั้นแบบดั้งเดิม ส่งผลให้ต้นทุนการอนุมานลดลงอย่างมีนัยสำคัญ