Згідно з оголошенням NVIDIA у офіційному блогe від 28 квітня (автор Kari Briski), NVIDIA представила Nemotron 3 Nano Omni — відкрита мультимодальна модель, яка поєднує візуальні, голосові та мовні можливості в єдину модель; мета — надати AI agent системам «шар сприйняття» з нижчою затримкою та меншими витратами.
Ключові специфікації: 30B-A3B MoE, 256K контекст, 9-кратна пропускна здатність, посіла 1 місце в 6 рейтингах
Ключова архітектура:
30B-A3B hybrid mixture-of-experts (загальні параметри 30B, активовані 3B)
інтеграція Conv3D та EVS кодування
довжина 256K контексту
Вхідні дані: текст, зображення, аудіо, відео, файли, діаграми, екрани GUI
Вихідні дані: текст
Сигнали продуктивності: у тих самих сценаріях взаємодії забезпечує 9-кратну пропускну здатність порівняно з іншими відкритими omni-моделями; у трьох категоріях — інтелектуальні документи, розуміння відео та розуміння аудіо — здобула 1 місце в сукупності в 6 базових рейтингах (у повідомленні NVIDIA не наведено конкретних балів; це підштовхує читачів перейти в розробницький блог за детальною інформацією).
NVIDIA позиціонує Nemotron 3 Nano Omni як «очі та вуха» в agent-системах: вона працює в розподілі ролей із моделями того ж сімейства Nemotron 3 Super (виконання на високій частоті) і Nemotron 3 Ultra (складне планування), а також може інтегруватися з хмарними моделями сторонніх розробників. Три типові сценарії застосування для agent:
Агент для керування комп’ютером (Computer Use Agent): візуальне міркування з нативною роздільною здатністю 1920×1080
Інтелектуальні документи: міркування з кросграфіками, таблицями, скріншотами та змішаними мультимедійними входами
Розуміння аудіо/відео: поєднання того, що говорять, що показують, і записів в єдину послідовність міркування
Склад підтримки: у списку — Foxconn, Palantir, H Company CEO озвучив позицію іменем
У повідомленні NVIDIA чітко розділено «виробниче впровадження» та «перебуває на оцінюванні»:
Вже впроваджено у виробництво: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler
Перебуває на оцінюванні: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr тощо
Генеральний директор H Company Gautier Cloix у повідомленні іменем заявив: «To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.» Переклад: «Щоб створити корисні agent-и, не можна чекати секунди, поки модель інтерпретує екран. Спираючись на Nemotron 3 Nano Omni, наші agent-и можуть швидко інтерпретувати записи повноекранного HD — те, що раніше було неприйнятним з точки зору практичності».
Стратегія відкритості та розгортання: weights / datasets / методи тренування — повністю у відкритому доступі
Під час релізу NVIDIA оприлюднила:
ваги моделі
тренувальні датасети
тренувальні техніки / методологію
Пайплайн розгортання охоплює три рівні:
Локальні робочі станції: NVIDIA DGX Spark, DGX Station
NIM мікросервіси: build.nvidia.com
Платформи сторонніх розробників: Hugging Face, OpenRouter, а також через 25+ NVIDIA Cloud Partners, інференс-платформи та хмарних сервіс-провайдерів
Індивідуальні інструменти використовують NVIDIA NeMo. Сімейство Nemotron 3 (Nano / Super / Ultra) за минулий рік у Hugging Face накопичило понад 50 мільйонів завантажень; цього разу Omni розширює можливості цього сімейства на мультимодальний і agentic напрям.
Ця публікація про те, що NVIDIA представила Nemotron 3 Nano Omni з відкритим кодом мультимодальної моделі, вперше з’явилася на 鏈新聞 ABMedia.
Пов'язані статті
CZ заявив, що YZi Labs виділяє 70% на блокчейн і 20% на ШІ на Consensus Miami 2026
Zypher Network інтегрує AIDEN, щоб покращити доступність знань про блокчейн
Virtuals Protocol запускає airdrop OpenGradient Titan, сьогодні розподілить 500 тис. OPG
NeoSoul і AllScale оголошують стратегічне партнерство щодо агентського кредитування та розрахунків у стейблкоїнах сьогодні
FIS і Anthropic розробляють AI-агентів для протидії відмиванню грошей, впроваджуючи їх у BMO та Amalgamated Bank у другому півріччі 2026 року
Prime Intellect Lab оголошує загальну доступність 7 травня та завершує понад 10 000 навчальних запусків у бета-режимі