NVIDIA が Nemotron 3 Nano Omni を発表:オープンソースのマルチモーダル

NVIDIA 公式ブログ 4 月 28 日の告知(著者 Kari Briski)によると、NVIDIA は Nemotron 3 Nano Omni — オープンソースのマルチモーダルモデルを発表し、視覚・音声・言語の能力を単一モデルに統合し、AI agent システム向けにより低遅延でより低コストな「知覚層」を目指している。

中核仕様:30B-A3B MoE、256K コンテキスト、9 倍スループット、6 つのランキングで 1 位を獲得

主要アーキテクチャ:

30B-A3B ハイブリッド mixture-of-experts(総パラメータ 30B、活性化 3B)

Conv3D と EVS のエンコーディングを統合

256K コンテキスト長

入力:テキスト、画像、音声、動画、ドキュメント、図表、GUI スクリーン

出力:テキスト

性能シグナル:他のオープンソース omni モデルと同等のインタラクティブ性において 9 倍のスループット;ドキュメント知能、動画理解、音声理解の 3 つの領域にまたがる合計 6 つのベンチマークランキングで首位を獲得(NVIDIA の告知には具体的なスコアは記載されておらず、詳細は開発者ブログを参照するよう促している)。

NVIDIA は Nemotron 3 Nano Omni を agent システム内の「目と耳」と位置づけており、Nemotron 3 Super(高頻度実行)、Nemotron 3 Ultra(複雑な計画)などの同ファミリーのモデルと役割分担できるほか、第三者のクラウドモデルとも相互運用できる。3 つの代表的な agent の適用シーン:

コンピュータ操作エージェント(Computer Use Agent):ネイティブ 1920×1080 解像度の視覚推論

ドキュメント知能:図・表・スクリーンショットおよび混合メディア入力による推論

音声/動画理解:発話、映像、記録を 1 つの推論ストリームに統合

導入体制:鴻海、Palantir が参入、H Company CEO が指名で表明

NVIDIA の告知では「生産導入」と「評価中」が明確に区別されている:

すでに生産導入:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler

評価中:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr など

H Company の CEO Gautier Cloix が告知内で指名して表明:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻訳:「実用的なエージェントを作るには、モデルが画面を解釈するのに数秒も待つことはできません。Nemotron 3 Nano Omni の上に構築することで、私たちのエージェントはフル HD の画面録画を迅速に解釈できるようになります—これは以前は実際的ではありませんでした。」

オープンソース方針と展開:weights/datasets/訓練手法をすべて公開

NVIDIA はリリースと同時に公開:

モデルの重み

訓練データセット

訓練技術/方法論

展開パイプラインは 3 層にまたがる:

ローカル ワークステーション:NVIDIA DGX Spark、DGX Station

NIM マイクロサービス:build.nvidia.com

第三者プラットフォーム:Hugging Face、OpenRouter。さらに 25 を超える NVIDIA Cloud Partners、推論プラットフォーム、クラウドサービス事業者を通じて提供

カスタマイズ用ツールは NVIDIA NeMo を使用する。Nemotron 3 ファミリー(Nano/Super/Ultra)は過去 1 年間で Hugging Face 上の累積ダウンロードが 5,000 万回を超えており、今回の Omni はそのファミリーの能力をマルチモーダルおよび agentic 領域へ拡張した。

この記事の「NVIDIA が Nemotron 3 Nano Omni をオープンソースでマルチモーダル化」を最初に掲載したのは 鏈新聞 ABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

CZ氏は、Consensus Miami 2026で、YZi Labsがブロックチェーンに70%、AIに20%を割り当てると述べた

ChainCatcherによると、Consensus Miami 2026において、趙長鵬(CZ)は、YZi Labsが資金の70%をブロックチェーンに、20%をAIに、そして10%をバイオテクノロジーに割り当てていると述べた。CZはさらに、BNBはAIエージェントのためのネイティブ通貨として位置づけるべきだとし、すべてのブロックチェーンは「AI ready」である必要があると付け加えた

GateNews32分前

Zypher Network は、ブロックチェーン知識へのアクセス性を向上させるために AIDEN を統合します

IQ AIの5月6日の公式発表によると、Zypher Networkは、ブロックチェーン知識のアクセスしやすさを向上させ、AI対応エコシステム内での監査可能性を強化するために、IQ AIによって開発された人工知能エージェントであるAIDENを統合しました。このコラボレーションにより、専用のウィキページが導入されます

GateNews34分前

Virtuals ProtocolはOpenGradient Titanのエアドロップを開始し、本日500K OPGを配布します

Virtuals Protocolの公式発表によると、OpenGradient Titanのローンチ・エアドロップは5月7日現在、すでに開始されています。対象ユーザーはVirtualsのアカウントから直接OPGトークンを受け取れます。本日、Virtualsへの貢献者に報いるために合計500,000 OPGトークンが配布されます

GateNews4時間前

NeoSoulとAllScaleは、エージェントクレジットおよびステーブルコイン決済に関する戦略的提携を本日発表します

ChainCatcherによると、AI Agent EconomyプロジェクトのNeoSoulは本日(5月7日)、自律型エージェント同士の連携に向けて、クレジット形成とステーブルコイン決済の仕組みを探るため、AllScaleと戦略的パートナーシップを発表しました。この提携では、エージェント間の支払いフローを自動化することに注力します――ただし

GateNews5時間前

FISとAnthropicがマネーロンダリング対策のためのAIエージェントを開発、2026年後半にBMOとAmalgamated Bankへ展開

FISとAnthropicは、マネーロンダリング対策から始め、金融犯罪の捜査を自動化することを目的としたAIエージェントを開発しています。金融犯罪AIエージェントは、銀行システムからデータを取得し、既知の手口に照らして取引を評価し、捜査官が資料を確認するのを支援します。

GateNews6時間前

Prime Intellect Labは5月7日に一般提供(GA)を開始し、ベータ期間中に10,000回超のトレーニング実行を完了しました

Prime Intellectによれば、同社のLabプラットフォームは2026年5月7日にベータ版を終了し、自己改善するAIエージェント向けのエンドツーエンド学習環境として一般提供(GA)へ移行した。統合パイプラインはモデル改善のワークフローを集約し、ユーザーがタスクを定義し、設定できるようにする

GateNews7時間前
コメント
0/400
コメントなし