Google lanza DiffusionGemma de código abierto, con una velocidad 4 veces mayor pero con una calidad inferior a Gemma 4

2026-06-11 05:27:34

Google DeepMind publicó y abrió el código de DiffusionGemma el 10 de junio, como el nuevo miembro de la familia de Gemma 4 de código abierto. DiffusionGemma utiliza una arquitectura de generación de texto mediante difusión, combinada con un diseño de mezcla de expertos (MoE). En todos los puntos de referencia públicos publicados, las puntuaciones de DiffusionGemma son inferiores a las de Gemma 4 estándar.

Datos oficiales de pruebas de velocidad y especificaciones de hardware

Según las cifras confirmadas publicadas por Google oficiales:

Prueba de velocidad (Google oficial, sin verificación de terceros)

Nvidia RTX 5090 (nivel de consumidor)：aprox. 700 tokens/segundo

Nvidia H100 (nivel de centro de datos)：supera 1.000 tokens/segundo

Multiplicador de autovaloración：aprox. 4 veces frente a un modelo Gemma de la misma escala en generación autorregresiva

Arquitectura y parámetros

Cantidad total de parámetros：26.000 millones (26B)

Parámetros activos de inferencia：3.800 millones (3,8B)

Requisitos de VRAM：se puede ejecutar en tarjetas gráficas de gama alta con 18GB de VRAM (especialmente las versiones cuantizadas)

Procesamiento paralelo máximo：hasta 256 tokens simultáneamente en una sola ejecución

Licencia：Apache 2.0

Mecanismo de generación: diferencias clave entre difusión y autorregresión

Los modelos autorregresivos estándar generan token por token de manera secuencial; cada token depende del resultado del anterior. El cuello de botella está en el ancho de banda de la memoria: por cada token emitido se necesita leer una vez los pesos del modelo desde la memoria.

El flujo de DiffusionGemma es distinto: primero coloca tokens de posicionamiento en toda el área de salida, realiza múltiples rondas de eliminación de ruido, y en cada ronda todos los tokens de las distintas posiciones se actualizan simultáneamente para corregirse entre sí, hasta que el contenido completo converge en la salida final. Esta forma de cálculo intensivo en cómputo y altamente paralela desplaza el cuello de botella desde el ancho de banda de la memoria hacia la potencia de cómputo del GPU, aprovechando mejor la capacidad de paralelismo de los GPU modernos.

En documentos oficiales, Google pone como ejemplo que DiffusionGemma presenta ventajas estructurales en tareas lógicas no lineales de tipo sudoku de resolución, porque en este tipo de tareas las respuestas correctas suelen implicar relaciones de dependencia complejas entre posiciones, mientras que el método lineal de generación autorregresiva está naturalmente limitado.

Resultados de las pruebas de referencia: todas las puntuaciones publicadas son inferiores a Gemma 4

En los datos publicados, Google confirma que, en todos los puntos de referencia públicos ya publicados, las puntuaciones de DiffusionGemma son inferiores a las de Gemma 4 estándar. Esto significa que el aumento de velocidad de 4 veces viene acompañado de una caída sistemática en la calidad de generación. El artículo de BlockTempo señala que esta renuncia tiene significados diferentes según el escenario de uso: en escenarios sensibles a la latencia o que requieren grandes lotes de salida, la ventaja de velocidad es real; para tareas con requisitos más altos de calidad, la Gemma 4 estándar sigue siendo más confiable.

Los casos de uso para los que Google indica que aplica DiffusionGemma incluyen: edición en línea (in-line editing), generación de secuencias moleculares, dibujo matemático y tareas no lineales que involucran relaciones de dependencia lógicas complejas.

Preguntas frecuentes

¿En qué se diferencia fundamentalmente DiffusionGemma del modelo de lenguaje autorregresivo estándar en el mecanismo de generación?

Los modelos autorregresivos estándar generan de forma lineal token por token; cada token depende del resultado del anterior. DiffusionGemma primero coloca tokens de posicionamiento en toda la región de salida, realiza múltiples rondas de eliminación de ruido, y en cada ronda actualiza simultáneamente todas las posiciones; finalmente, produce una salida única con todo el borrador final, haciendo que la lógica de generación se parezca más a la forma en que Stable Diffusion genera imágenes.

¿En qué hardware se puede ejecutar DiffusionGemma localmente?

Según la explicación de Google, DiffusionGemma puede ejecutarse en tarjetas gráficas de gama alta con 18GB de VRAM, especialmente las versiones cuantizadas. Las pruebas de Google muestran que la Nvidia RTX 5090 de consumo puede alcanzar alrededor de 700 tokens por segundo, pero las cifras anteriores son una autoevaluación de Google y no una verificación independiente de terceros.

¿Las cifras de velocidad de DiffusionGemma ya fueron verificadas por terceros?

Aún no. BlockTempo indica con claridad en el artículo original que todas las cifras de pruebas de velocidad provienen de las pruebas oficiales de Google, no de una verificación independiente de terceros; en distintos escenarios y con diferentes longitudes de generación, los multiplicadores reales podrían diferir de las cifras oficiales.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.

Noticias relacionadas

hace14h

0G Labs anuncia una asociación con MiniMax el 11 de junio para llevar modelos de IA a la cadena (on-chain)

hace17h

Google abre el código del modelo DiffusionGemma: 1000+ tokens por segundo en H100, aumento de velocidad 4x

06-10 03:41

Google lanza Gemini 3.5 Live Translate con traducción en tiempo real compatible con más de 70 idiomas