NVIDIA 公式ブログ 4 月 28 日の告知(著者 Kari Briski)によると、NVIDIA は Nemotron 3 Nano Omni — オープンソースのマルチモーダルモデルを発表し、視覚・音声・言語の能力を単一モデルに統合し、AI agent システム向けにより低遅延でより低コストな「知覚層」を目指している。
中核仕様:30B-A3B MoE、256K コンテキスト、9 倍スループット、6 つのランキングで 1 位を獲得
主要アーキテクチャ:
30B-A3B ハイブリッド mixture-of-experts(総パラメータ 30B、活性化 3B)
Conv3D と EVS のエンコーディングを統合
256K コンテキスト長
入力:テキスト、画像、音声、動画、ドキュメント、図表、GUI スクリーン
出力:テキスト
性能シグナル:他のオープンソース omni モデルと同等のインタラクティブ性において 9 倍のスループット;ドキュメント知能、動画理解、音声理解の 3 つの領域にまたがる合計 6 つのベンチマークランキングで首位を獲得(NVIDIA の告知には具体的なスコアは記載されておらず、詳細は開発者ブログを参照するよう促している)。
NVIDIA は Nemotron 3 Nano Omni を agent システム内の「目と耳」と位置づけており、Nemotron 3 Super(高頻度実行)、Nemotron 3 Ultra(複雑な計画)などの同ファミリーのモデルと役割分担できるほか、第三者のクラウドモデルとも相互運用できる。3 つの代表的な agent の適用シーン:
コンピュータ操作エージェント(Computer Use Agent):ネイティブ 1920×1080 解像度の視覚推論
ドキュメント知能:図・表・スクリーンショットおよび混合メディア入力による推論
音声/動画理解:発話、映像、記録を 1 つの推論ストリームに統合
導入体制:鴻海、Palantir が参入、H Company CEO が指名で表明
NVIDIA の告知では「生産導入」と「評価中」が明確に区別されている:
すでに生産導入:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler
評価中:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr など
H Company の CEO Gautier Cloix が告知内で指名して表明:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻訳:「実用的なエージェントを作るには、モデルが画面を解釈するのに数秒も待つことはできません。Nemotron 3 Nano Omni の上に構築することで、私たちのエージェントはフル HD の画面録画を迅速に解釈できるようになります—これは以前は実際的ではありませんでした。」
オープンソース方針と展開:weights/datasets/訓練手法をすべて公開
NVIDIA はリリースと同時に公開:
モデルの重み
訓練データセット
訓練技術/方法論
展開パイプラインは 3 層にまたがる:
ローカル ワークステーション:NVIDIA DGX Spark、DGX Station
NIM マイクロサービス:build.nvidia.com
第三者プラットフォーム:Hugging Face、OpenRouter。さらに 25 を超える NVIDIA Cloud Partners、推論プラットフォーム、クラウドサービス事業者を通じて提供
カスタマイズ用ツールは NVIDIA NeMo を使用する。Nemotron 3 ファミリー(Nano/Super/Ultra)は過去 1 年間で Hugging Face 上の累積ダウンロードが 5,000 万回を超えており、今回の Omni はそのファミリーの能力をマルチモーダルおよび agentic 領域へ拡張した。
この記事の「NVIDIA が Nemotron 3 Nano Omni をオープンソースでマルチモーダル化」を最初に掲載したのは 鏈新聞 ABMedia。
関連記事
FISとAnthropicがマネーロンダリング対策のためのAIエージェントを開発、2026年後半にBMOとAmalgamated Bankへ展開