وفقًا لمراقبة Beating، أطلقت Google نموذجًا لتوليد النصوص مفتوح المصدر باسم DiffusionGemma، يستخدم آلية قائمة على الانتشار لتوليد النص على شكل كتل بالتوازي بدلًا من التسلسل سطرًا بسطر من الرمز إلى الرمز. لا يُفعِّل نموذج 26B من المعلمات سوى 3.8B معلمات لكل تمريرة أمامية ضمن بنية mixture-of-experts، محققًا تحسنًا في السرعة المحلية للاستدلال على وحدات المعالجة الرسومية بنسبة 4x.
على وحدة NVIDIA H100 واحدة، يصل DiffusionGemma إلى أكثر من 1000 رمز في الثانية، بينما يتجاوز RTX 5090 المخصص للمستهلك 700 رمز في الثانية. بعد إجراء تسعير كمي بدقة 4-bit floating-point، يحتاج النموذج إلى أقل من 18GB من الذاكرة العشوائية VRAM. أُتيحت الآن أوزان DiffusionGemma كمصدر مفتوح على Hugging Face، وتوجد له إسنادات عبر MLX وvLLM وUnsloth وNVIDIA NeMo.