Velocidad máxima de 3 veces y sin pérdida, modelo de decodificación especulativa MTP de toda la serie Gemma4 de código abierto de Google

Según la monitorización de Beating, Google ha lanzado y abierto el código del borrador del modelo de predicción de múltiples tokens (MTP) de la serie Gemma 4. Este es un modelo auxiliar liviano que utiliza una arquitectura de decodificación especulativa, capaz de acelerar la inferencia hasta 3 veces en comparación con el modelo principal, manteniendo la calidad de salida y la capacidad de razonamiento lógico.

Los modelos de lenguaje grande estándar solo pueden generar un token a la vez, lo que los hace susceptibles a limitaciones de ancho de banda de memoria de video y provoca inactividad en la potencia de cálculo. La solución MTP permite que el modelo auxiliar liviano utilice la potencia de cálculo ociosa para predecir de manera anticipada múltiples tokens futuros en una sola vez, y luego estos sean verificados en paralelo por el modelo objetivo pesado, como el de 31B. Si el modelo objetivo aprueba el borrador, recibe toda la secuencia de una sola vez. Para mejorar aún más la eficiencia, el modelo auxiliar comparte directamente el estado de activación y la caché KV del modelo objetivo (que almacena el contexto histórico para evitar cálculos repetidos); para los modelos en el extremo, E2B y E4B, el equipo también introdujo técnicas de agrupamiento en la capa de embedding.

Actualmente, el modelo MTP ha sido completamente abierto bajo la misma licencia Apache 2.0 que Gemma 4, y soporta de forma nativa frameworks de inferencia como vLLM, SGLang y Ollama. Esta optimización de velocidad reduce significativamente la barrera de entrada, permitiendo a los desarrolladores ejecutar modelos de 26B MoE y 31B densos en tarjetas gráficas de consumo comunes, y también soportar interacciones de IA en tiempo real en dispositivos móviles con menor consumo de energía.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado