Menurut pemantauan Beating, Google merilis model text generation open-source bernama DiffusionGemma, yang menggunakan mekanisme berbasis difusi untuk menghasilkan teks dalam blok paralel, bukan secara berurutan token-per-token. Model 26B parameter hanya mengaktifkan 3,8B parameter per forward pass dalam arsitektur mixture-of-experts, mencapai peningkatan kecepatan 4x pada inferensi GPU lokal.
Pada satu GPU NVIDIA H100, DiffusionGemma mencapai lebih dari 1000 token per detik, sementara RTX 5090 kelas konsumen melampaui 700 token per detik. Setelah kuantisasi floating-point 4-bit, model membutuhkan VRAM di bawah 18GB. Bobot DiffusionGemma kini diopen-source di Hugging Face dan didukung oleh MLX, vLLM, Unsloth, serta NVIDIA NeMo.