Según Beating, Google implementó la arquitectura de Predicción Multi-Token (MTP) en los dispositivos Pixel 9 y Pixel 10, lo que aceleró significativamente el modelo Gemini Nano v3 en el dispositivo. La nueva arquitectura aumentó la velocidad de inferencia en más del 50 % sin comprometer la alineación de seguridad ni la calidad de salida del modelo.
El mecanismo de copia cero permite que el cabezal de predicción reutilice directamente las características almacenadas en caché del modelo principal mediante atención cruzada, eliminando la sobrecarga de caché de clave-valor separada de los modelos de borrador tradicionales. Este diseño ahorró aproximadamente 130 MB de memoria al mismo tiempo que redujo la latencia de inicio. En aplicaciones del mundo real como resúmenes de notificaciones y respuestas inteligentes, MTP logró un aumento del 55 % en la tasa de aceptación de tokens, reduciendo la frecuencia de activación del procesador y disminuyendo el consumo de energía del sistema.