Google TurboQuant: การควอนไทซ์ KV Cache แบบ 3bit โดยไม่สูญเสียความแม่นยำ ประสิทธิภาพการอนุมานเพิ่มขึ้นสูงถึง 8 เท่า

BlockBeatNews

จากการตรวจสอบของ 1M AI News Google Research ได้เผยแพร่อัลกอริทึมบีบอัดเชิงปริมาณ TurboQuant ซึ่งสามารถบีบอัดแคช KV ของโมเดลภาษาขนาดใหญ่เหลือเพียง 3 บิต ลดการใช้หน่วยความจำอย่างน้อย 6 เท่า โดยไม่ต้องฝึกหรือปรับแต่งโมเดลใหม่ และไม่สูญเสียความแม่นยำของโมเดล ในโหมด 4 บิต บน GPU H100 ของ NVIDIA ความเร็วในการคำนวณความสนใจเพิ่มสูงสุด 8 เท่าเมื่อเทียบกับฐาน 32 บิตที่ไม่ได้ทำการบีบอัด

ทีมวิจัยได้ทดสอบบนมาตรฐาน LongBench, Needle In A Haystack, ZeroSCROLLS โดยใช้โมเดล Gemma และ Mistral โดย TurboQuant ทำผลงานได้ดีที่สุดในทุกการทดสอบ อัลกอริทึมนี้ประกอบด้วยสองอัลกอริทึมย่อย: PolarQuant ซึ่งเปลี่ยนเป็นพิกัดเชิงขั้วเพื่อกำจัดต้นทุนหน่วยความจำของวิธีการบีบอัดแบบดั้งเดิม และ QJL ซึ่งใช้เพียง 1 บิตในการปรับแก้ความผิดพลาดที่เหลืออยู่

งานวิจัยนี้นำโดย Amir Zandieh จาก Google Research และรองประธานและ Google Fellow Vahab Mirrokni ร่วมกับ KAIST เกาหลีใต้ และมหาวิทยาลัยนิวยอร์ก จะมีการเผยแพร่ใน ICLR 2026 Google ระบุว่าหนึ่งในแอปพลิเคชันหลักของเทคโนโลยีนี้คือการแก้ปัญขอคอคแคช KV ของโมเดลอย่าง Gemini

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น