In der Zeit, in der generative KI weltweit Einzug hält, sind fast alle LLMs, Cloud-Dienste und AI-Startups auf dasselbe entscheidende Infrastruktursystem angewiesen, nämlich das CUDA-Software-Ökosystem von NVIDIA (. Diese ursprünglich für Grafikkarten entwickelte Programmarchitektur hat sich im Laufe der letzten zwei Jahrzehnte schrittweise zu einem “unsichtbaren Betriebssystem” entwickelt, das das tatsächliche Funktionieren der KI-Industrie unterstützt.
Das 2022 gegründete Startup Modular versucht, dieser hochgradig zentralisierten, von einem einzigen Anbieter dominierten Struktur entgegenzutreten. Das Ziel von Modular ist nicht, einen neuen Chip zu entwickeln, sondern eine “tragbare AI-Software-Stack-Plattform” zu schaffen, die es AI-Modellen ermöglicht, frei zwischen verschiedenen GPUs und Beschleunigern zu wechseln, ohne im Ökosystem von NVIDIA und CUDA gefangen zu sein.
2022 Unternehmensstart, Unterbauingenieure dringen direkt in den CUDA-Kern vor
Modular wurde 2022 von zwei Software-Ingenieuren, die zuvor bei Apple und Google tätig waren, gegründet. Der CEO Chris Lattner hat das Swift- und LLVM-Compiler-System entwickelt, während Mitbegründer Tim Davis an der Schlüsselsoftware-Architektur von Google TPU beteiligt war.
Beide Personen haben erlebt, wie neue Hardware “den Markt durch Software öffnet” und haben sich daher entschieden, große Technologieunternehmen zu verlassen, um direkt die AI-Software-Hegemonie, die CUDA repräsentiert, herauszufordern. Dieser asymmetrische Krieg erscheint der Branche fast verrückt, wird aber auch als eines der wenigen Teams betrachtet, die aufgrund ihres tiefen Verständnisses der Systemebene die Möglichkeit haben, es zu versuchen.
CUDA ist schwer zu ersetzen, die strukturellen Fesseln der KI-Industrie.
CUDA war ursprünglich nur ein Werkzeug, um Grafikkarten programmierbar zu machen. Mit dem Aufstieg des Deep Learnings hat es sich schrittweise zu einem vollständigen Ökosystem entwickelt, das Sprachen, Bibliotheken, Compiler und Inferenz-Engines umfasst.
Für die meisten KI-Teams ist es nahezu unmöglich, CUDA zu umgehen, solange sie NVIDIA-GPUs verwenden. Selbst wenn es auf dem Markt AMD-GPUs, TPUs oder selbstentwickelte Chips von Cloud-Anbietern gibt, ist jede Hardware dennoch an proprietäre Software gebunden, wodurch Entwickler natürlich dazu neigen, die am weitesten entwickelte und am besten ausgestattete Software, nämlich CUDA, auszuwählen, was zu einer stark gesperrten Branchenstruktur führt.
Ein Projekt ohne Anreize wird zum Durchbruch.
Lattner weist darauf hin, dass tragbare KI-Software über Chips und Anbieter hinweg nicht unwichtig ist, sondern dass “niemand genügend Anreize hat, die Kosten zu tragen”. Solche Projekte sind extrem schwierig, die Amortisationszeit ist lang, und kurzfristig sind kaum kommerzielle Ergebnisse zu sehen, dennoch ist es eine Fähigkeit, die in der gesamten Branche stark gewünscht wird.
Genau dieser Widerspruch veranlasste Modular, vor dem Ausbruch der generativen KI frühzeitig in die langfristige Entwicklung von Basissystemen zu investieren und in den ersten drei Jahren nach der Gründung bewusst den Scheinwerfer des Marktes zu meiden.
Drei Jahre unauffällige Arbeit, Kapital und Team sind schrittweise bereitgestellt.
Bis 2025 hat Modular etwa 380 Millionen US-Dollar an Kapital gesammelt, wobei Investoren mehrere führende Risikokapitalgeber aus dem Silicon Valley sind. Nach Abschluss der neuesten Finanzierungsrunde im September 2025 wird das Unternehmen mit etwa 1,6 Milliarden US-Dollar bewertet.
Diese Ressourcen ermöglichen es Modular, erfahrene Ingenieure von Google und Apple zu rekrutieren, um ein Team zu bilden, das sich auf Compiler, Systemsoftware und KI-Infrastruktur konzentriert und kontinuierlich den vollständigen Software-Stack verfeinert.
Drei-Schichten-Softwarearchitektur, von der Sprache bis zum Rechencluster
Der technische Kern von Modular besteht aus drei Ebenen, nämlich:
Oberste Schicht: für Mammoth, um Unternehmen bei der Leistungsscheduling und -verwaltung in Multi-GPU- und Multi-Anbieter-Umgebungen zu unterstützen und praktische Bereitstellungs- und Betriebsprobleme zu lösen.
Mittelschicht: ist die MAX-Inferenz-Engine, verantwortlich für die tatsächliche Ausführung des Modells, unterstützt NVIDIA, AMD und Apple Silicon.
Die unterste Schicht: Die Mojo-Programmiersprache, deren Syntax Python ähnelt und deren Leistung nahe an C++ liegt, kann mit gängigen KI-Frameworks integriert werden.
2025 Schlüsselvalidierung, die einheitliche Berechnungsschicht ist offiziell geformt
Im September 2025 veröffentlichte Modular die Ergebnisse entscheidender Tests, bei denen auf derselben Softwareplattform sowohl die NVIDIA Blackwell B200 als auch die AMD MI355X gleichzeitig betrieben wurden und Spitzenleistungen erzielten. Dabei zeigte die MI355X sogar eine Verbesserung von etwa 50 % im Vergleich zur nativen Software von AMD.
Am 22.12. wurde die Modular Platform 25.6 offiziell veröffentlicht, die vollständige Unterstützung für Datenzentren und Verbraucher-GPUs bietet und erstmals Mojo direkt auf Apple Silicon unterstützt. Offiziell wird dies als „Write once, run anywhere“ beschrieben, das heißt:
“Entwickler müssen den in Mojo geschriebenen Code nicht für Nvidia, AMD und Apple Silicon in verschiedenen Versionen schreiben; ein einziger Code kann auf verschiedenen GPUs und Hardware von verschiedenen Anbietern ausgeführt werden.”
Symbolisiert die Einheit, die KI-Computing-Schicht geht von Konzepten zur praktischen Umsetzung.
Dieser Artikel stellt die AI-Softwareherrschaft von Nvidia in Frage! Modular schafft eine plattformübergreifende AI-Integration, die CUDA herausfordert, erstmals erschienen auf Chain News ABMedia.