NVIDIA stellt Nemotron 3 Nano Omni vor: Open-Source-Multimodalmodell

2026-05-07 10:56:27

Laut einer Ankündigung im offiziellen NVIDIA-Blog vom 28. April (Autor Kari Briski) hat NVIDIA Nemotron 3 Nano Omni vorgestellt — ein Open-Source-Multimodalmodell, das visuelle, sprachliche und sprachbezogene Fähigkeiten in einem einzigen Modell bündelt und als Ziel eine „Wahrnehmungsschicht“ für KI-Agent-Systeme mit geringerer Latenz und niedrigeren Kosten liefert.

Kern-Spezifikationen: 30B-A3B MoE, 256K-Context, 9-facher Durchsatz, Platz 1 in 6 Rankings

Wichtige Architektur:

30B-A3B Hybrid Mixture-of-Experts (Gesamtparameter 30B, aktivierte 3B)

Integration von Conv3D und EVS-Encoding

256K-Contextlänge

Eingaben: Text, Bilder, Audio, Videos, Dokumente, Diagramme, GUI-Bildschirme

Ausgaben: Text

Leistungssignale: 9-facher Durchsatz gegenüber anderen Open-Source-Omni-Modellen bei gleicher Interaktivität; Platz 1 in insgesamt 6 Benchmark-Rankings in drei Kategorien: „Dokumentenintelligenz“, „Videoverstehen“ und „Audioverstehen“ (NVIDIA nennt in der Ankündigung keine konkreten Punktzahlen und lenkt Leser dazu, die Details im Entwickler-Blog einzusehen).

NVIDIA ordnet Nemotron 3 Nano Omni als „Augen und Ohren“ in Agent-Systemen ein: Es soll innerhalb der Nemotron-3-Familie Aufgaben mit Nemotron 3 Super (hochfrequente Ausführung) und Nemotron 3 Ultra (komplexe Planung) aufteilen sowie mit Cloud-Modellen von Drittanbietern zusammenarbeiten können. Drei typische Agent-Use-Cases:

Computer-Use-Agent: native visuelle Inferenz bei 1920×1080 Auflösung

Dokumentenintelligenz: Inferenz für gemischte Medien-Eingaben über Bild, Tabelle, Screenshot

Audio-/Video-Verstehen: integriert Sprache, Bild und Aufzeichnungen zu einer einzigen Inferenzkette

Beteiligte/Anwender: Foxconn (Hon Hai), Palantir, zudem namentliche Stellungnahme des CEO von H Company

NVIDIA unterscheidet in der Ankündigung ausdrücklich zwischen „Produktionseinsatz“ und „in Evaluation“:

Bereits in Produktion eingesetzt: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler

In Evaluation: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.

Der CEO von H Company, Gautier Cloix, äußert sich in der Ankündigung namentlich: „To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.“ Übersetzung: „Um nützliche Agenten zu bauen, kannst du nicht Sekunden warten, damit das Modell einen Bildschirm interpretiert. Aufbauend auf Nemotron 3 Nano Omni können unsere Agenten Full-HD-Bildschirmaufzeichnungen schnell interpretieren — etwas, das zuvor nicht praktikabel war.“

Open-Source-Strategie und Bereitstellung: weights / datasets / Trainingsmethoden vollständig offengelegt

Zum Zeitpunkt der Veröffentlichung stellt NVIDIA außerdem bereit:

Modellgewichte

Trainingsdatensets

Trainings-Tools/Methodik

Die Bereitstellungspipeline umfasst drei Ebenen:

Lokale Workstations: NVIDIA DGX Spark, DGX Station

NIM-Microservices: build.nvidia.com

Drittanbieter-Plattformen: Hugging Face, OpenRouter sowie Bereitstellung über mehr als 25 NVIDIA Cloud Partners, Inferenzplattformen und Cloud-Dienstanbieter

Für kundenspezifische Tools wird NVIDIA NeMo genutzt. Die Nemotron-3-Familie (Nano/Super/Ultra) hat sich im letzten Jahr auf Hugging Face auf mehr als 50 Millionen Downloads aufgebaut; mit dem diesjährigen Omni wird diese Fähigkeit der Familie auf den Multimodal- und agentischen Bereich erweitert.

Der Artikel, in dem NVIDIA Nemotron 3 Nano Omni als Open-Source-Multimodalmodell vorstellt, erschien zuerst in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.