Laut Beating-Überwachung hat Google ein Open-Source-Textgenerierungsmodell namens DiffusionGemma veröffentlicht, das einen Diffusion-basierten Mechanismus nutzt, um Text in parallelen Blöcken zu erzeugen, statt tokenweise sequentiell. Das Modell mit 26B-Parametern aktiviert nur 3,8B Parameter pro Forward-Pass in einer Mixture-of-Experts-Architektur und erreicht damit eine 4-fache Geschwindigkeitssteigerung bei der lokalen GPU-Inferenz.
Auf einer einzelnen NVIDIA H100-GPU erreicht DiffusionGemma über 1.000 Tokens pro Sekunde, während die verbrauchergerechte RTX 5090 mehr als 700 Tokens pro Sekunde schafft. Nach einer Quantisierung auf 4-Bit-Floating-Point benötigt das Modell unter 18GB VRAM. Die DiffusionGemma-Gewichte sind jetzt auf Hugging Face open-sourceseitig verfügbar und werden von MLX, vLLM, Unsloth und NVIDIA NeMo unterstützt.