NVIDIA stellt Nemotron 3 Nano Omni vor: Open-Source-Multimodalmodell

ChainNewsAbmedia

Laut einer Ankündigung im offiziellen NVIDIA-Blog vom 28. April (Autor Kari Briski) hat NVIDIA Nemotron 3 Nano Omni vorgestellt — ein Open-Source-Multimodalmodell, das visuelle, sprachliche und sprachbezogene Fähigkeiten in einem einzigen Modell bündelt und als Ziel eine „Wahrnehmungsschicht“ für KI-Agent-Systeme mit geringerer Latenz und niedrigeren Kosten liefert.

Kern-Spezifikationen: 30B-A3B MoE, 256K-Context, 9-facher Durchsatz, Platz 1 in 6 Rankings

Wichtige Architektur:

30B-A3B Hybrid Mixture-of-Experts (Gesamtparameter 30B, aktivierte 3B)

Integration von Conv3D und EVS-Encoding

256K-Contextlänge

Eingaben: Text, Bilder, Audio, Videos, Dokumente, Diagramme, GUI-Bildschirme

Ausgaben: Text

Leistungssignale: 9-facher Durchsatz gegenüber anderen Open-Source-Omni-Modellen bei gleicher Interaktivität; Platz 1 in insgesamt 6 Benchmark-Rankings in drei Kategorien: „Dokumentenintelligenz“, „Videoverstehen“ und „Audioverstehen“ (NVIDIA nennt in der Ankündigung keine konkreten Punktzahlen und lenkt Leser dazu, die Details im Entwickler-Blog einzusehen).

NVIDIA ordnet Nemotron 3 Nano Omni als „Augen und Ohren“ in Agent-Systemen ein: Es soll innerhalb der Nemotron-3-Familie Aufgaben mit Nemotron 3 Super (hochfrequente Ausführung) und Nemotron 3 Ultra (komplexe Planung) aufteilen sowie mit Cloud-Modellen von Drittanbietern zusammenarbeiten können. Drei typische Agent-Use-Cases:

Computer-Use-Agent: native visuelle Inferenz bei 1920×1080 Auflösung

Dokumentenintelligenz: Inferenz für gemischte Medien-Eingaben über Bild, Tabelle, Screenshot

Audio-/Video-Verstehen: integriert Sprache, Bild und Aufzeichnungen zu einer einzigen Inferenzkette

Beteiligte/Anwender: Foxconn (Hon Hai), Palantir, zudem namentliche Stellungnahme des CEO von H Company

NVIDIA unterscheidet in der Ankündigung ausdrücklich zwischen „Produktionseinsatz“ und „in Evaluation“:

Bereits in Produktion eingesetzt: Aible, Applied Scientific Intelligence (ASI), Eka Care, Hon Hai (Foxconn), H Company, Palantir, Pyler

In Evaluation: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.

Der CEO von H Company, Gautier Cloix, äußert sich in der Ankündigung namentlich: „To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.“ Übersetzung: „Um nützliche Agenten zu bauen, kannst du nicht Sekunden warten, damit das Modell einen Bildschirm interpretiert. Aufbauend auf Nemotron 3 Nano Omni können unsere Agenten Full-HD-Bildschirmaufzeichnungen schnell interpretieren — etwas, das zuvor nicht praktikabel war.“

Open-Source-Strategie und Bereitstellung: weights / datasets / Trainingsmethoden vollständig offengelegt

Zum Zeitpunkt der Veröffentlichung stellt NVIDIA außerdem bereit:

Modellgewichte

Trainingsdatensets

Trainings-Tools/Methodik

Die Bereitstellungspipeline umfasst drei Ebenen:

Lokale Workstations: NVIDIA DGX Spark, DGX Station

NIM-Microservices: build.nvidia.com

Drittanbieter-Plattformen: Hugging Face, OpenRouter sowie Bereitstellung über mehr als 25 NVIDIA Cloud Partners, Inferenzplattformen und Cloud-Dienstanbieter

Für kundenspezifische Tools wird NVIDIA NeMo genutzt. Die Nemotron-3-Familie (Nano/Super/Ultra) hat sich im letzten Jahr auf Hugging Face auf mehr als 50 Millionen Downloads aufgebaut; mit dem diesjährigen Omni wird diese Fähigkeit der Familie auf den Multimodal- und agentischen Bereich erweitert.

Der Artikel, in dem NVIDIA Nemotron 3 Nano Omni als Open-Source-Multimodalmodell vorstellt, erschien zuerst in 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Virtuals Protocol startet OpenGradient Titan Airdrop und verteilt heute 500.000 OPG

Laut der offiziellen Ankündigung von Virtuals Protocol ist das OpenGradient-Titan-Launch-Airdrop jetzt live, und zwar ab dem 7. Mai. Berechtigte Nutzer können OPG-Tokens direkt aus ihren Virtuals-Konten beanspruchen. Insgesamt werden heute 500.000 OPG-Tokens ausgeschüttet, um Mitwirkende an den Virtuals zu belohnen

GateNews1Std her

NeoSoul und AllScale kündigen heute eine strategische Partnerschaft für Agenten-Kredit und Stablecoin-Abwicklung an

Laut ChainCatcher gab das Projekt NeoSoul der „AI Agent Economy“ heute (7. Mai) eine strategische Partnerschaft mit AllScale bekannt, um Mechanismen zur Kreditbildung und zum Stablecoin-Settlement für die autonome Zusammenarbeit von Agenten zu untersuchen. Die Partnerschaft wird sich auf die Automatisierung von Zahlungsströmen zwischen Agenten konzentrieren – so wie

GateNews2Std her

FIS und Anthropic entwickeln KI-Agenten zur Bekämpfung der Geldwäsche und rollen sie in H2 2026 bei BMO und der Amalgamated Bank aus

FIS und Anthropic entwickeln KI-Agents, die darauf ausgelegt sind, Ermittlungen wegen Finanzkriminalität zu automatisieren, beginnend mit Anti-Geldwäsche-Operationen. Der Financial Crimes AI Agent wird Daten aus Bankensystemen abrufen, Transaktionen anhand bekannter Muster bewerten und Ermittlern dabei helfen, al

GateNews3Std her

Prime Intellect Lab startet am 7. Mai die allgemeine Verfügbarkeit und schließt im Betabetrieb 10.000+ Trainingsläufe ab

Laut Prime Intellect ist die Lab-Plattform des Unternehmens am 7. Mai 2026 aus der Betaphase herausgegangen und in die allgemeine Verfügbarkeit übergegangen. Sie dient als End-to-End-Trainingsumgebung für selbstverbessernde KI-Agenten. Die einheitliche Pipeline bündelt Workflows zur Modellverbesserung und ermöglicht es Nutzern, Aufgaben zu definieren, … zu konfigurieren

GateNews4Std her

Cloudflare löst bei Consensus 2026 täglich 1 Milliarde HTTP-402-Antworten aus und startet das Agent Trust Framework mit Visa und Experian

Laut Foresight News kündigte die CSO von Cloudflare, Stephanie Cohen, auf dem Consensus 2026 an, dass die Plattform täglich etwa 1 Milliarde HTTP-402-Antworten auslöst, was die Nachfrage von KI-Agenten nach bezahltem Zugriff auf Webinhalte widerspiegelt. Das Unternehmen stellte gemeinsam mit Visa und Experian die Agent Trust

GateNews6Std her

Reid Hoffman: KI-Agenten werden Kryptografie-Trust-Systeme brauchen

Reid Hoffman, Partner bei Greylock und Mitgründer von LinkedIn, sagte, dass autonome Agenten kryptobasierte Vertrauenssysteme benötigen werden, um über das offene Internet Transaktionen durchzuführen, und deutete damit an, dass diese Entwicklung möglicherweise eine Rückkehr für NFTs ermöglichen könnte. Hoffmans Aussage verknüpft das Aufkommen autonomer Agenten mit dem

CryptoFrontier8Std her
Kommentieren
0/400
Keine Kommentare