Google Open-Source DiffusionGemma-Modell: 1.000+ Tokens pro Sekunde auf H100, 4x Geschwindigkeits-Boost

Laut Beating-Überwachung hat Google ein Open-Source-Textgenerierungsmodell namens DiffusionGemma veröffentlicht, das einen Diffusion-basierten Mechanismus nutzt, um Text in parallelen Blöcken zu erzeugen, statt tokenweise sequentiell. Das Modell mit 26B-Parametern aktiviert nur 3,8B Parameter pro Forward-Pass in einer Mixture-of-Experts-Architektur und erreicht damit eine 4-fache Geschwindigkeitssteigerung bei der lokalen GPU-Inferenz.

Auf einer einzelnen NVIDIA H100-GPU erreicht DiffusionGemma über 1.000 Tokens pro Sekunde, während die verbrauchergerechte RTX 5090 mehr als 700 Tokens pro Sekunde schafft. Nach einer Quantisierung auf 4-Bit-Floating-Point benötigt das Modell unter 18GB VRAM. Die DiffusionGemma-Gewichte sind jetzt auf Hugging Face open-sourceseitig verfügbar und werden von MLX, vLLM, Unsloth und NVIDIA NeMo unterstützt.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare