Google setzt Multi-Token Prediction auf Pixel 9 und 10 ein und steigert die Inferenzgeschwindigkeit von Gemini Nano um über 50%

Laut Beating hat Google die Multi-Token-Prediction-Architektur (MTP) auf den Pixel-9- und Pixel-10-Geräten eingesetzt, wodurch das On-Device-Modell Gemini Nano v3 deutlich beschleunigt wird. Die neue Architektur steigerte die Inferenzgeschwindigkeit um über 50 %, während die Sicherheitsausrichtung und Ausgabequalität des Modells erhalten blieben.

Der Zero-Copy-Mechanismus ermöglicht es dem Prediction-Head, die gecachten Features des Hauptmodells direkt per Cross-Attention wiederzuverwenden, wodurch der separate Key-Value-Cache-Overhead traditioneller Draft-Modelle entfällt. Dieses Design sparte etwa 130 MB Speicher und verkürzte gleichzeitig die Startlatenz. In realen Anwendungen wie Zusammenfassungen von Benachrichtigungen und Smart Replies erreichte MTP eine Steigerung der Token-Akzeptanzrate um 55 %, verringerte die Häufigkeit des Prozessor-Wake-ups und senkte den Gesamtstromverbrauch.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare