จากการวิเคราะห์บล็อกล่าสุดของ Nvidia ระบุว่า GPU ตระกูล Blackwell มีต้นทุนต่อชั่วโมงสูงเกือบ 2 เท่าเมื่อเทียบกับรุ่น Hopper แต่กลับให้ต้นทุนการอินเฟอเรนซ์ต่อโทเค็นต่ำลงถึง 35 เท่า ใช้ DeepSeek-R1 เป็นโมเดลทดสอบ พบว่า Blackwell (GB300 NVL72) ให้บริการเช่าในราคา $2.65 ต่อ GPU ต่อชั่วโมง ขณะที่ Hopper อยู่ที่ $1.41 อย่างไรก็ตาม ประสิทธิภาพแบบต่อ GPU เพิ่มจาก 90 เป็น 6,000 โทเค็นต่อวินาที การเพิ่มขึ้นของทรูพุต 65 เท่านี้ทำให้ต้นทุนต่อโทเค็น 1 ล้านโทเค็นลดจาก $4.20 เหลือ $0.12
ตัวเลข $0.12 ตั้งสมมติฐานว่ามีการปรับแต่งซอฟต์แวร์เต็มรูปแบบ รวมถึงการอินเฟอเรนซ์ความแม่นยำต่ำ FP4 และการทำนายหลายโทเค็น (MTP) หากปิด MTP ต้นทุนต่อโทเค็น 1 ล้านโทเค็นจะพุ่งขึ้นไปอยู่ที่ประมาณ $2.35 ก่อนจะลดลงเหลือ $0.11 เมื่อเปิดใช้งาน โดยแสดงให้เห็นว่าฟีเจอร์นี้เพียงอย่างเดียวมีผลต่อการเพิ่มประสิทธิภาพถึง 21 เท่า