Google นำการทำนายหลายโทเค็นมาใช้บน Pixel 9 และ 10 ช่วยเพิ่มความเร็วในการอนุมานของ Gemini Nano กว่า 50%

ตามรายงานของ Beating Google ได้ปรับใช้สถาปัตยกรรม Multi-Token Prediction (MTP) บนอุปกรณ์ Pixel 9 และ Pixel 10 ซึ่งช่วยเร่งความเร็วของโมเดล Gemini Nano v3 บนเครื่องได้อย่างมาก สถาปัตยกรรมใหม่นี้เพิ่มความเร็วในการอนุมานมากกว่า 50% โดยยังคงรักษาการจัดตำแหน่งความปลอดภัยและคุณภาพเอาต์พุตของโมเดลไว้

กลไก zero-copy ช่วยให้ prediction head สามารถนำฟีเจอร์ที่ถูกแคชของโมเดลหลักมาใช้ซ้ำโดยตรงผ่าน cross-attention ซึ่งช่วยลดโอเวอร์เฮดของ key-value cache ที่แยกต่างหากของโมเดลร่างแบบดั้งเดิม การออกแบบนี้ประหยัดหน่วยความจำประมาณ 130MB พร้อมลดความหน่วงในการเริ่มทำงานลง ในการใช้งานจริง เช่น การสรุปการแจ้งเตือนและ smart replies MTP ส่งผลให้อัตราการยอมรับ token เพิ่มขึ้น 55% ลดความถี่ในการปลุกโปรเซสเซอร์ และลดการใช้พลังงานของระบบ

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น