Согласно мониторингу Beating, Google выпустила open-source текстовую модель генерации под названием DiffusionGemma, которая использует механизм диффузии для генерации текста параллельными блоками, а не токен-за-токеном последовательно. Модель с 26B параметрами активирует только 3,8B параметра за один прямой проход в рамках архитектуры mixture-of-experts, обеспечивая 4-кратное ускорение локального вывода на GPU.
На одной NVIDIA H100 DiffusionGemma достигает более 1000 токенов в секунду, тогда как потребительская RTX 5090 превышает 700 токенов в секунду. После квантования в 4-бит с плавающей запятой модели требуется менее 18GB VRAM. Веса DiffusionGemma теперь открыты для сообщества на Hugging Face и поддерживаются MLX, vLLM, Unsloth и NVIDIA NeMo.