De acordo com a monitorização Beating, a Google lançou um modelo de geração de texto de código aberto chamado DiffusionGemma, que utiliza um mecanismo baseado em difusão para gerar texto em blocos paralelos, em vez de forma sequencial token a token. O modelo com 26 mil milhões de parâmetros ativa apenas 3,8 mil milhões de parâmetros por passagem forward sob uma arquitetura de mixture-of-experts, alcançando uma melhoria de 4x na inferência local em GPU.
Numa única GPU NVIDIA H100, o DiffusionGemma atinge mais de 1000 tokens por segundo, enquanto a RTX 5090 de gama de consumo ultrapassa 700 tokens por segundo. Após quantização em ponto flutuante de 4 bits, o modelo requer menos de 18GB de VRAM. Os pesos do DiffusionGemma já estão disponibilizados em código aberto no Hugging Face e são suportados pelo MLX, vLLM, Unsloth e NVIDIA NeMo.