Laut Nvidias neuester Blog-Analyse kosten Blackwell-GPUs pro Stunde nahezu das Doppelte im Vergleich zur Hopper-Generation, senken aber die Inferenzkosten pro Token um den Faktor 35. Mit DeepSeek-R1 als Testmodell wird Blackwell (GB300 NVL72) für 2,65 US-Dollar pro GPU und Stunde angemietet, gegenüber 1,41 US-Dollar für Hopper. Gleichzeitig steigt der Single-GPU-Durchsatz von 90 auf 6.000 Tokens pro Sekunde. Dieser Zuwachs um 65x senkt die Kosten pro Million Token von 4,20 US-Dollar auf 0,12 US-Dollar.
Der Wert von 0,12 US-Dollar setzt eine vollständige Software-Optimierung voraus, einschließlich FP4-Low-Precision-Inferenz und Multi-Token Prediction (MTP). Ohne MTP erreichen die Kosten pro Million Token etwa 2,35 US-Dollar; mit aktivem MTP sinken sie auf 0,11 US-Dollar. Damit zeigt sich allein durch diese Funktion eine Optimierungswirkung von 21x.