De acordo com o anúncio no blog oficial da NVIDIA de 28 de abril (autor Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal aberto que integra capacidades de visão, áudio e linguagem em um único modelo, com o objetivo de oferecer à plataforma de sistemas de agentes uma “camada de percepção” com menor latência e menor custo.
Especificações principais: MoE 30B-A3B, contexto de 256K, 9 vezes mais throughput, e chegou ao topo em 6 rankings
Arquitetura-chave:
30B-A3B hybrid mixture-of-experts (parâmetros totais 30B, ativação 3B)
Integra Conv3D e EVS encoding
Comprimento de contexto 256K
Entrada: texto, imagem, áudio, vídeo, documentos, gráficos, telas de GUI
Saída: texto
Sinais de desempenho: 9 vezes mais throughput em igual nível de interatividade do que outros modelos omni abertos; em três categorias de benchmarks — inteligência em documentos, compreensão de vídeo e compreensão de áudio — conquistou o 1º lugar em um total de 6 rankings (o anúncio da NVIDIA não divulgou pontuações específicas, orientando os leitores a irem ao blog de desenvolvedores para ver os detalhes).
A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” dentro de sistemas de agentes, podendo ter divisão de trabalho com modelos da mesma família como Nemotron 3 Super (execução em alta frequência) e Nemotron 3 Ultra (planejamento complexo), além de também permitir interoperabilidade com modelos em nuvem de terceiros. Três cenários típicos de aplicação de agentes:
Agente de uso de computador (Computer Use Agent): raciocínio visual com resolução nativa de 1920×1080
Inteligência em documentos: inferência a partir de entradas multimodais, cruzando imagens, tabelas, capturas de tela e mídia mista
Compreensão de áudio/vídeo: integrar fala, cenas e registros em uma única cadeia de inferência
Adoção por lineup: entra a Foxconn, Palantir; CEO da H Company faz declaração nominal
No anúncio, a NVIDIA separa claramente “adoção em produção” de “em avaliação”:
Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.
O CEO da H Company, Gautier Cloix, fez uma declaração nominal no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para construir agentes úteis, você não pode esperar segundos para o modelo interpretar uma tela. Ao construir sobre o Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em full HD — algo que antes não era viável.”
Estratégia de código aberto e implantação: pesos / datasets / métodos de treinamento totalmente abertos
No lançamento, a NVIDIA disponibiliza também:
Pesos do modelo
Conjuntos de dados de treinamento
Técnicas/métodos de treinamento
A esteira de implantação abrange três camadas:
Estações de trabalho locais: NVIDIA DGX Spark, DGX Station
Microserviços NIM: build.nvidia.com
Plataformas de terceiros: Hugging Face, OpenRouter, além de fornecer via mais de 25 NVIDIA Cloud Partners, plataformas de inferência e provedores de serviço em nuvem
Ferramentas personalizadas utilizam NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou no ano passado mais de 50 milhões de downloads no Hugging Face; desta vez, o Omni estende as capacidades dessa família para os domínios multimodal e agentic.
Este artigo sobre o lançamento do Nemotron 3 Nano Omni como código aberto multimodal da NVIDIA apareceu pela primeira vez em 鏈新聞 ABMedia.
Related Articles
CZ diz que a YZi Labs aloca 70% para blockchain e 20% para IA na Consensus Miami 2026
A Zypher Network integra a AIDEN para melhorar a acessibilidade ao conhecimento sobre blockchain
Virtuals Protocol lança o airdrop OpenGradient Titan, distribuindo 500 mil OPG hoje
NeoSoul e AllScale anunciam parceria estratégica em crédito de agentes e liquidação de stablecoin hoje
FIS e Anthropic desenvolvem agentes de IA para combate à lavagem de dinheiro, com implementação no BMO e no Amalgamated Bank no 2º semestre de 2026
A Prime Intellect Lab lança disponibilidade geral em 7 de maio e conclui mais de 10.000 execuções de treinamento na versão beta