Laut einer Ankündigung im offiziellen NVIDIA-Blog vom 28. April (Autor Kari Briski) hat NVIDIA Nemotron 3 Nano Omni vorgestellt — ein Open-Source-Multimodalmodell, das visuelle, sprachliche und sprachbezogene Fähigkeiten in einem einzigen Modell bündelt und als Ziel eine „Wahrnehmungsschicht“ für KI-Agent-Systeme mit geringerer Latenz und niedrigeren Kosten liefert.
Kern-Spezifikationen: 30B-A3B MoE, 256K-Context, 9-facher Durchsatz, Platz 1 in 6 Rankings
Wichtige Architektur:
30B-A3B Hybrid Mixture-of-Experts (Gesamtparameter 30B, aktivierte 3B)
Integration von Conv3D und EVS-Encoding
256K-Contextlänge
Eingaben: Text, Bilder, Audio, Videos, Dokumente, Diagramme, GUI-Bildschirme
Ausgaben: Text
Leistungssignale: 9-facher Durchsatz gegenüber anderen Open-Source-Omni-Modellen bei gleicher Interaktivität; Platz 1 in insgesamt 6 Benchmark-Rankings in drei Kategorien: „Dokumentenintelligenz“, „Videoverstehen“ und „Audioverstehen“ (NVIDIA nennt in der Ankündigung keine konkreten Punktzahlen und lenkt Leser dazu, die Details im Entwickler-Blog einzusehen).
NVIDIA ordnet Nemotron 3 Nano Omni als „Augen und Ohren“ in Agent-Systemen ein: Es soll innerhalb der Nemotron-3-Familie Aufgaben mit Nemotron 3 Super (hochfrequente Ausführung) und Nemotron 3 Ultra (komplexe Planung) aufteilen sowie mit Cloud-Modellen von Drittanbietern zusammenarbeiten können. Drei typische Agent-Use-Cases:
Computer-Use-Agent: native visuelle Inferenz bei 1920×1080 Auflösung
Dokumentenintelligenz: Inferenz für gemischte Medien-Eingaben über Bild, Tabelle, Screenshot
Audio-/Video-Verstehen: integriert Sprache, Bild und Aufzeichnungen zu einer einzigen Inferenzkette
Beteiligte/Anwender: Foxconn (Hon Hai), Palantir, zudem namentliche Stellungnahme des CEO von H Company
NVIDIA unterscheidet in der Ankündigung ausdrücklich zwischen „Produktionseinsatz“ und „in Evaluation“:
Bereits in Produktion eingesetzt: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler
In Evaluation: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.
Der CEO von H Company, Gautier Cloix, äußert sich in der Ankündigung namentlich: „To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.“ Übersetzung: „Um nützliche Agenten zu bauen, kannst du nicht Sekunden warten, damit das Modell einen Bildschirm interpretiert. Aufbauend auf Nemotron 3 Nano Omni können unsere Agenten Full-HD-Bildschirmaufzeichnungen schnell interpretieren — etwas, das zuvor nicht praktikabel war.“
Open-Source-Strategie und Bereitstellung: weights / datasets / Trainingsmethoden vollständig offengelegt
Zum Zeitpunkt der Veröffentlichung stellt NVIDIA außerdem bereit:
Modellgewichte
Trainingsdatensets
Trainings-Tools/Methodik
Die Bereitstellungspipeline umfasst drei Ebenen:
Lokale Workstations: NVIDIA DGX Spark, DGX Station
NIM-Microservices: build.nvidia.com
Drittanbieter-Plattformen: Hugging Face, OpenRouter sowie Bereitstellung über mehr als 25 NVIDIA Cloud Partners, Inferenzplattformen und Cloud-Dienstanbieter
Für kundenspezifische Tools wird NVIDIA NeMo genutzt. Die Nemotron-3-Familie (Nano/Super/Ultra) hat sich im letzten Jahr auf Hugging Face auf mehr als 50 Millionen Downloads aufgebaut; mit dem diesjährigen Omni wird diese Fähigkeit der Familie auf den Multimodal- und agentischen Bereich erweitert.
Der Artikel, in dem NVIDIA Nemotron 3 Nano Omni als Open-Source-Multimodalmodell vorstellt, erschien zuerst in 鏈新聞 ABMedia.
Verwandte Artikel
Virtuals Protocol startet OpenGradient Titan Airdrop und verteilt heute 500.000 OPG
NeoSoul und AllScale kündigen heute eine strategische Partnerschaft für Agenten-Kredit und Stablecoin-Abwicklung an
FIS und Anthropic entwickeln KI-Agenten zur Bekämpfung der Geldwäsche und rollen sie in H2 2026 bei BMO und der Amalgamated Bank aus
Prime Intellect Lab startet am 7. Mai die allgemeine Verfügbarkeit und schließt im Betabetrieb 10.000+ Trainingsläufe ab
Cloudflare löst bei Consensus 2026 täglich 1 Milliarde HTTP-402-Antworten aus und startet das Agent Trust Framework mit Visa und Experian
Reid Hoffman: KI-Agenten werden Kryptografie-Trust-Systeme brauchen