2026年 CES Verbraucherelektronikmesse, NVIDIA-CEO 黄仁勋 kündigt offiziell die Serienproduktion von Vera Rubin an, was einen entscheidenden Wendepunkt in der Entwicklung der Künstlichen Intelligenz (KI) markiert: Vom frühen Zeitalter der generativen KI, das auf Modelltraining (Training) fokussiert war, schreitet man nun in eine Ära vor, in der agentische KI (Agentic AI) und groß angelegte Inferenz (Inference) dominieren.
(黄仁勋 CES setzt den Ton für 2026: Vera Rubin in vollem Umfang in Produktion, KI-Fahrzeuge im Q1 auf den Markt, Schlüsselprozesse von TSMC)
Dieser Bericht analysiert eingehend, wie dieser technologische Wendepunkt die Hardware-Ebene von Rechenzentren neu gestaltet, insbesondere die G3.5-Speicherstufe und die Inferenz-Kontext-Speicherplattform (ICMS). Vor diesem Hintergrund stehen die vier globalen Giganten im Speicher- und Speichermarkt SK Hynix, Samsung Electronics, Micron Technology und SanDisk vor beispiellosen Chancen und Herausforderungen.
Was sind HBM, DRAM, NAND? Begriffserklärungen im Überblick
Vor dem eigentlichen Inhalt eine einfache Erklärung der Begriffe:
Allgemeine Erklärung der Speicherbegriffe: HBM (inklusive HBM3E, HBM4, HBM5)
HBM steht für High Bandwidth Memory (Hochleistungs-Speicher). Man kann sich das vorstellen wie viele Schichten DRAM-Chips, die wie ein mehrstöckiger Kuchen übereinander gestapelt sind, verbunden mit sehr vielen breiten Hochgeschwindigkeitsstraßen zum GPU, was den Datentransfer extrem beschleunigt.
HBM3E: Derzeit die Hauptvariante, eingesetzt in der neuesten GPU-Generation, schnell und mit moderatem Stromverbrauch.
HBM4: Die nächste Generation, für noch leistungsstärkere GPUs wie Vera Rubin, mit höherer Bandbreite und größerer Kapazität.
HBM5: Die zukünftige Generation (in Planung), die Geschwindigkeit und Kapazität weiter erhöht und auf größere Modelle vorbereitet.
Neben der Vera Rubin GPU werden viele HBM-Chips gestapelt, damit die GPU Daten mit Hochgeschwindigkeit abrufen kann. Der Kernrechenleistung für KI-Training und -Inference wird vollständig durch HBM bereitgestellt, was diese Welle von KI-Servern zum größten Star macht. Hersteller verlagern große Produktionskapazitäten auf HBM, was die Versorgung anderer Speicherarten einschränkt. Im Vera Rubin Zeitalter ist HBM das wichtigste Bauteil aller Komponenten.
Allgemeine Erklärung der Speicherbegriffe: SSD
SSD ist wie ein riesiger USB-Stick, der Daten dauerhaft speichert, auch nach Ausschalten des Computers. Dateien, Videos, Spiele werden auf SSD (oder herkömmlichen Festplatten) abgelegt. Im Zeitalter von Vera Rubin, um KI-Chatbots große Mengen an Text, Dialoghistorie und Wissen zu speichern, werden sehr viele SSDs angeschlossen, um eine riesige Datenbibliothek zu bilden. Citi schätzt, dass ein Vera Rubin Server etwa 1.152TB (also 1.152 x 1TB) SSDs benötigt, um das neue ICMS-System zu betreiben.
Früher waren SSDs eher Nebenakteure im Datenlager, heute spielen sie eine zentrale Rolle im ICMS/Long-Context-Inference.
Allgemeine Erklärung der Speicherbegriffe: NAND
Der eigentliche Speichermaterial in SSDs heißt NAND-Flash-Speicher. Man kann sich das vorstellen wie ein Bücherregal, in dem NAND die einzelnen Seiten sind. Das ICMS von Vera Rubin benötigt viele SSDs, die mit NAND-Chips gefüllt sind. Für KI-Modelle, die immer größer werden und längere Dialoge speichern, braucht man mehr NAND, um diese Texte und Zwischenergebnisse zu speichern.
Allgemeine Erklärung der Speicherbegriffe: DRAM
DRAM ist wie ein Kurzzeitgedächtnis-Whiteboard: Beim Rechnen schreibt der Computer die Daten auf DRAM, nach dem Herunterfahren wird alles gelöscht. Es ist viel schneller als SSD, aber vergisst alles beim Ausschalten. Es dient als Arbeitsbereich für CPU/GPU bei normalen Berechnungen, steuert Kontrolle, Scheduling und Systemaufgaben. Es speichert keine langen Dialoge oder riesige Modelle, sondern unterstützt das System. Da die Hersteller die Produktion auf HBM umstellen, ist die Versorgung mit DRAM knapp geworden, die Preise steigen stark, sogar Engpässe treten auf.
Allgemeine Erklärung der Speicherbegriffe: LPDDR5X / DDR5
DDR5: Wird in Servern und Desktop-Computern verwendet, schneller als DDR4.
LPDDR5X: Für mobile Geräte oder hochdichte CPU-Module, energiesparende Version, vergleichbar mit „Energiespar-DRAM“.
Der Rubin-CPU-Prozessor benötigt viel LPDDR5X oder DDR5 als Systemspeicher für Steuerung, Scheduling und Systemaufgaben. Sie sind nicht direkt an die GPU gebunden, sind aber die Grundlage für stabile KI-Server. Aufgrund der HBM-Produktionskapazitäten sind DDR5 / LPDDR5X derzeit knapp und teuer.
Allgemeine Erklärung der Speicherbegriffe: High Bandwidth Flash (HBF)
HBF kann man sich vorstellen als beschleunigten NAND, der Speed wurde verbessert, damit Flash (Fast-Flash-Speicher) nicht nur langsam Daten speichert, sondern schneller wird und mehr wie ein Speicher genutzt werden kann. Im Vergleich zu herkömmlichen SSDs liegt der Fokus auf „hoher Durchsatzrate und niedriger Latenz“, damit KI bei Inferenz schnell große Mengen an Kontext lesen und schreiben kann.
Im Vera Rubin System ist HBF eine der Kernkomponenten des ICMS: große KV-Cache, lange Kontextdaten werden auf diesem Hochgeschwindigkeits-Flash gespeichert, und über Netzwerke (RDMA etc.) kann die GPU fast wie auf den Arbeitsspeicher zugreifen. Das ist das G3.5-Konzept. Flash wird von reiner Speicherung zu einer externen Speicherlösung, die am Rechenprozess beteiligt ist.
Vera Rubin Generation: Grundlegende Umgestaltung der Hardware-Architektur
Extrem-Ko-Design (Extreme Co-design) und Rack-Level Computing
Auf der CES 2026 präsentierte NVIDIA-CEO 黄仁勋 eine zentrale Idee: Im Rubin-Generation ist die Recheneinheit nicht mehr nur eine einzelne GPU oder Server, sondern das gesamte Rechenzentrum im Rack. Das Rubin-Platform besteht aus sechs Kernchips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU und Spectrum-6 Ethernet Switch.
Diese Strategie des extremen Ko-Designs zielt darauf ab, Kommunikationsengpässe zwischen Chips zu eliminieren und das Vera Rubin NVL72 Rack zu einem einzigen Supercomputer mit 3,6 ExaFLOPS Inferenzleistung und 75TB Hochgeschwindigkeits-Speicher zu machen.
Diese Architekturentwicklung ist kein reines Leistungs-Upgrade, sondern eine Reaktion auf die fundamentale Veränderung der KI-Arbeitslasten. Von Blackwell zu Rubin haben sich KI-Modelle von einfachen Frage-Antwort-Systemen zu intelligenten Agenten entwickelt, die mehrstufige Inferenzen, langfristige Gedächtnissuche und Tool-Nutzung durchführen können. Diese Arbeitslasten erfordern Hardware, die nicht nur hohe Durchsatzraten, sondern auch extrem niedrige Latenz und enorme Kontextspeicherfähigkeit aufweist.
Akquisition von Groq und die Wende bei Inferenz: Defensive Übernahmen und der Beginn des ASIC-Zeitalters
Ende 2025 erwarb NVIDIA das KI-Chiphersteller-Startup Groq im Rahmen einer 20-Milliarden-Dollar-Übernahme und Technologielizenzierung. Das Kernstück von Groq ist die LPU (Language Processing Unit), eine ASIC, die speziell für Transformer-Modelle optimiert ist. Anders als herkömmliche GPUs, die auf HBM setzen, nutzt Groq On-Chip-SRAM (statischer RAM) und eine Compiler-zentrierte Architektur.
In Echtzeit-Interaktionsszenarien bietet diese Architektur eine bis zu 10-mal schnellere Token-Generierung und eine 10-mal höhere Energieeffizienz im Vergleich zu traditionellen GPUs. NVIDIA will die Latenz bei Inferenz (Groq LPU ist darin spezialisiert) mit CUDA-Ökosystem verbinden. Cloud-Giganten wie Google (TPU) und Amazon (Inferentia) haben bereits durch eigene ASICs bewiesen, dass spezialisierte Chips bei Inferenzkosten enorme Vorteile bieten. NVIDIA muss diese mit Groq-Technologie verteidigen.
Herausforderung der Kontextmauer (The Context Wall)
Bei Long-Context-Inferenz ist der Key-Value (KV)-Cache die Mechanik, mit der KI-Modelle den Dialogverlauf speichern. Mit wachsendem Kontextfenster auf Millionen Token wächst der KV-Cache linear, was den teuren und begrenzten GPU-HBM (G1) schnell erschöpft. Bei voller HBM werden Daten in den System-DRAM (G2) oder lokale SSDs (G3) ausgelagert. Das führt zu einer KV-Cache-Krise: Die GPU ist oft nur am Warten auf historische Daten und läuft leer.
G3.5 Ebene: Inferenz-Kontext-Speicherplattform (ICMS)
Im Vera Rubin-Architektur ist die disruptive und tiefgreifende Innovation die G3.5-Speicherstufe, also die Inferenz-Kontext-Speicherplattform (ICMS, Inference Context Memory Storage). Diese Innovation ist nicht nur ein Architektur-Upgrade, sondern markiert den Beginn des kontextbewussten (Context-Aware) Rechenzeitalters.
ICMS nutzt BlueField-4 DPU und Spectrum-X Ethernet, um auf Rack-Ebene einen gemeinsamen, auf Flash basierenden Puffer zu schaffen. Diese G3.5-Stufe liegt zwischen DRAM und traditionellem Speicher und nutzt RDMA (Remote Direct Memory Access), um der GPU den Zugriff auf entfernte KV-Caches in Flash mit nahezu lokaler Geschwindigkeit zu ermöglichen. Das ist das G3.5-Konzept. Flash wird von reiner Speicherung zu einer schnellen, an Rechenprozesse beteiligten externen Speicherlösung.
Vera Rubin-Generation: Grundlegende Umgestaltung der Hardware-Architektur
Extrem-Ko-Design (Extreme Co-design) und Rack-Level Computing
Auf der CES 2026 präsentierte 黄仁勋 die Vision, dass die Hardware-Architektur grundlegend neu gestaltet wird: Nicht mehr einzelne Chips, sondern ganze Rechenzentren im Rack. Das Rubin-System besteht aus sechs Kernchips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU und Spectrum-6 Ethernet Switch.
Dieses Konzept des extremen Ko-Designs zielt darauf ab, Kommunikationsengpässe zu beseitigen und das NVL72-Rack zu einem einzigen Supercomputer mit 3,6 ExaFLOPS Inferenzleistung und 75TB Hochgeschwindigkeits-Speicher zu machen.
Diese Architektur ist keine reine Leistungssteigerung, sondern eine Antwort auf die fundamentale Veränderung der KI-Arbeitslasten. Von Blackwell zu Rubin haben sich KI-Modelle von einfachen Frage-Antwort-Systemen zu intelligenten Agenten entwickelt, die mehrstufige Inferenzen, langfristige Gedächtnissuche und Tool-Nutzung durchführen. Diese Anforderungen erfordern Hardware, die nicht nur hohe Durchsatzraten, sondern auch extrem niedrige Latenz und enorme Kontextspeicherfähigkeit bietet.
Akquisition von Groq und die Wende bei Inferenz: Defensive Übernahmen und der Beginn des ASIC-Zeitalters
Ende 2025 erwarb NVIDIA das KI-Startup Groq im Wert von 20 Milliarden USD durch Akquisition und Technologielizenzierung. Das Kernstück, die LPU, ist eine ASIC, die speziell für Transformer-Modelle optimiert ist. Im Gegensatz zu herkömmlichen GPUs, die auf HBM setzen, verwendet Groq On-Chip-SRAM und eine Compiler-zentrierte Architektur.
In Echtzeit-Interaktionsszenarien bietet diese Architektur eine bis zu 10-fach schnellere Token-Generierung und eine 10-fach höhere Energieeffizienz im Vergleich zu herkömmlichen GPUs. NVIDIA will die Latenz bei Inferenz (Groq LPU ist darin spezialisiert) mit dem CUDA-Ökosystem verbinden. Cloud-Giganten wie Google (TPU) und Amazon (Inferentia) haben bereits bewiesen, dass spezialisierte Chips bei Inferenzkosten enorme Vorteile bieten. NVIDIA muss diese mit Groq-Technologie verteidigen.
Herausforderung der Kontextmauer (The Context Wall)
Bei Long-Context-Inferenz ist der Key-Value (KV)-Cache die Mechanik, mit der KI-Modelle den Dialogverlauf speichern. Mit wachsendem Kontextfenster auf Millionen Token wächst der KV-Cache linear, was den teuren und begrenzten GPU-HBM (G1) schnell erschöpft. Bei voller HBM werden Daten in den System-DRAM (G2) oder lokale SSDs (G3) ausgelagert. Das führt zu einer KV-Cache-Krise: Die GPU ist oft nur am Warten auf historische Daten und läuft leer.
G3.5 Ebene: Inferenz-Kontext-Speicherplattform (ICMS)
Im Vera Rubin-Architektur ist die disruptive und tiefgreifende Innovation die G3.5-Speicherstufe, also die Inferenz-Kontext-Speicherplattform (ICMS, Inference Context Memory Storage). Diese Innovation ist nicht nur ein Architektur-Upgrade, sondern markiert den Beginn des kontextbewussten (Context-Aware) Rechenzeitalters.
ICMS nutzt BlueField-4 DPU und Spectrum-X Ethernet, um auf Rack-Ebene einen gemeinsamen, auf Flash basierenden Puffer zu schaffen. Diese G3.5-Stufe liegt zwischen DRAM und traditionellem Speicher und nutzt RDMA (Remote Direct Memory Access), um der GPU den Zugriff auf entfernte KV-Caches in Flash mit nahezu lokaler Geschwindigkeit zu ermöglichen. Das ist das G3.5-Konzept. Flash wird von reiner Speicherung zu einer schnellen, an Rechenprozesse beteiligten externen Speicherlösung.
Vera Rubin-Generation: Grundlegende Umgestaltung der Hardware-Architektur
Extrem-Ko-Design (Extreme Co-design) und Rack-Level Computing
Auf der CES 2026 präsentierte 黄仁勋 die Vision, dass die Hardware-Architektur grundlegend neu gestaltet wird: Nicht mehr einzelne Chips, sondern ganze Rechenzentren im Rack. Das Rubin-System besteht aus sechs Kernchips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU und Spectrum-6 Ethernet Switch.
Dieses Konzept des extremen Ko-Designs zielt darauf ab, Kommunikationsengpässe zu beseitigen und das NVL72-Rack zu einem einzigen Supercomputer mit 3,6 ExaFLOPS Inferenzleistung und 75TB Hochgeschwindigkeits-Speicher zu machen.
Diese Architektur ist keine reine Leistungssteigerung, sondern eine Antwort auf die fundamentale Veränderung der KI-Arbeitslasten. Von Blackwell zu Rubin haben sich KI-Modelle von einfachen Frage-Antwort-Systemen zu intelligenten Agenten entwickelt, die mehrstufige Inferenzen, langfristige Gedächtnissuche und Tool-Nutzung durchführen. Diese Anforderungen erfordern Hardware, die nicht nur hohe Durchsatzraten, sondern auch extrem niedrige Latenz und enorme Kontextspeicherfähigkeit bietet.
Akquisition von Groq und die Wende bei Inferenz: Defensive Übernahmen und der Beginn des ASIC-Zeitalters
Ende 2025 erwarb NVIDIA das KI-Startup Groq im Wert von 20 Milliarden USD durch Akquisition und Technologielizenzierung. Das Kernstück, die LPU, ist eine ASIC, die speziell für Transformer-Modelle optimiert ist. Im Gegensatz zu herkömmlichen GPUs, die auf HBM setzen, verwendet Groq On-Chip-SRAM und eine Compiler-zentrierte Architektur.
In Echtzeit-Interaktionsszenarien bietet diese Architektur eine bis zu 10-fach schnellere Token-Generierung und eine 10-fach höhere Energieeffizienz im Vergleich zu herkömmlichen GPUs. NVIDIA will die Latenz bei Inferenz (Groq LPU ist darin spezialisiert) mit dem CUDA-Ökosystem verbinden. Cloud-Giganten wie Google (TPU) und Amazon (Inferentia) haben bereits bewiesen, dass spezialisierte Chips bei Inferenzkosten enorme Vorteile bieten. NVIDIA muss diese mit Groq-Technologie verteidigen.
Herausforderung der Kontextmauer (The Context Wall)
Bei Long-Context-Inferenz ist der Key-Value KV-Cache die Mechanik, mit der KI-Modelle den Dialogverlauf speichern. Mit wachsendem Kontextfenster auf Millionen Token wächst der KV-Cache linear, was den teuren und begrenzten GPU-HBM G1 schnell erschöpft. Bei voller HBM werden Daten in den System-DRAM G2 oder lokale SSDs G3 ausgelagert. Das führt zu einer KV-Cache-Krise: Die GPU ist oft nur am Warten auf historische Daten und läuft leer.
G3.5 Ebene: Inferenz-Kontext-Speicherplattform (ICMS)
Im Vera Rubin-Architektur ist die disruptive und tiefgreifende Innovation die G3.5-Speicherstufe, also die Inferenz-Kontext-Speicherplattform ICMS, Inference Context Memory Storage. Diese Innovation ist nicht nur ein Architektur-Upgrade, sondern markiert den Beginn des kontextbewussten (Context-Aware) Rechenzeitalters.
ICMS nutzt BlueField-4 DPU und Spectrum-X Ethernet, um auf Rack-Ebene einen gemeinsamen, auf Flash basierenden Puffer zu schaffen. Diese G3.5-Stufe liegt zwischen DRAM und traditionellem Speicher und nutzt RDMA (Remote Direct Memory Access), um der GPU den Zugriff auf entfernte KV-Caches in Flash mit nahezu lokaler Geschwindigkeit zu ermöglichen. Das ist das G3.5-Konzept. Flash wird von reiner Speicherung zu einer schnellen, an Rechenprozesse beteiligten externen Speicherlösung.
Vera Rubin-Generation: Grundlegende Umgestaltung der Hardware-Architektur
Extrem-Ko-Design (Extreme Co-design) und Rack-Level Computing
Auf der CES 2026 präsentierte 黄仁勋 die Vision, dass die Hardware-Architektur grundlegend neu gestaltet wird: Nicht mehr einzelne Chips, sondern ganze Rechenzentren im Rack. Das Rubin-System besteht aus sechs Kernchips: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU und Spectrum-6 Ethernet Switch.
Dieses Konzept des extremen Ko-Designs zielt darauf ab, Kommunikationsengpässe zu beseitigen und das NVL72-Rack zu einem einzigen Supercomputer mit 3,6 ExaFLOPS Inferenzleistung und 75TB Hochgeschwindigkeits-Speicher zu machen.
Diese Architektur ist keine reine Leistungssteigerung, sondern eine Antwort auf die fundamentale Veränderung der KI-Arbeitslasten. Von Blackwell zu Rubin haben sich KI-Modelle von einfachen Frage-Antwort-Systemen zu intelligenten Agenten entwickelt, die mehrstufige Inferenzen, langfristige Gedächtnissuche und Tool-Nutzung durchführen. Diese Anforderungen erfordern Hardware, die nicht nur hohe Durchsatzraten, sondern auch extrem niedrige Latenz und enorme Kontextspeicherfähigkeit bietet.
Herausforderung der Kontextmauer (The Context Wall)
Bei Long-Context-Inferenz ist der Key-Value KV-Cache die Mechanik, mit der KI-Modelle den Dialogverlauf speichern. Mit wachsendem Kontextfenster auf Millionen Token wächst der KV-Cache linear, was den teuren und begrenzten GPU-HBM G1 schnell erschöpft. Bei voller HBM werden Daten in den System-DRAM G2 oder lokale SSDs G3 ausgelagert. Das führt zu einer KV-Cache-Krise: Die GPU ist oft nur am Warten auf historische Daten und läuft leer.
G3.5 Ebene: Inferenz-Kontext-Speicherplattform (ICMS)
Im Vera Rubin-Architektur ist die disruptive und tiefgreifende Innovation die G3.5-Speicherstufe, also die Inferenz-Kontext-Speicherplattform ICMS, Inference Context Memory Storage. Diese Innovation ist nicht nur ein Architektur-Upgrade, sondern markiert den Beginn des kontextbewussten (Context-Aware) Rechenzeitalters.
ICMS nutzt BlueField-4 DPU und Spectrum-X Ethernet, um auf Rack-Ebene einen gemeinsamen, auf Flash basierenden Puffer zu schaffen. Diese G3.5-Stufe liegt zwischen DRAM und traditionellem Speicher und nutzt RDMA (Remote Direct Memory Access), um der GPU den Zugriff auf entfernte KV-Caches in Flash mit nahezu lokaler Geschwindigkeit zu ermöglichen. Das ist das G3.5-Konzept. Flash wird von reiner Speicherung zu einer schnellen, an Rechenprozesse beteiligten externen Speicherlösung.