A NVIDIA lança o Nemotron 3 Nano Omni open source multimodal

2026-05-07 10:56:27

De acordo com o anúncio no blog oficial da NVIDIA de 28 de abril (autor Kari Briski), a NVIDIA lançou o Nemotron 3 Nano Omni — um modelo multimodal aberto que integra capacidades de visão, áudio e linguagem em um único modelo, com o objetivo de oferecer à plataforma de sistemas de agentes uma “camada de percepção” com menor latência e menor custo.

Especificações principais: MoE 30B-A3B, contexto de 256K, 9 vezes mais throughput, e chegou ao topo em 6 rankings

Arquitetura-chave:

30B-A3B hybrid mixture-of-experts (parâmetros totais 30B, ativação 3B)

Integra Conv3D e EVS encoding

Comprimento de contexto 256K

Entrada: texto, imagem, áudio, vídeo, documentos, gráficos, telas de GUI

Saída: texto

Sinais de desempenho: 9 vezes mais throughput em igual nível de interatividade do que outros modelos omni abertos; em três categorias de benchmarks — inteligência em documentos, compreensão de vídeo e compreensão de áudio — conquistou o 1º lugar em um total de 6 rankings (o anúncio da NVIDIA não divulgou pontuações específicas, orientando os leitores a irem ao blog de desenvolvedores para ver os detalhes).

A NVIDIA posiciona o Nemotron 3 Nano Omni como “olhos e ouvidos” dentro de sistemas de agentes, podendo ter divisão de trabalho com modelos da mesma família como Nemotron 3 Super (execução em alta frequência) e Nemotron 3 Ultra (planejamento complexo), além de também permitir interoperabilidade com modelos em nuvem de terceiros. Três cenários típicos de aplicação de agentes:

Agente de uso de computador (Computer Use Agent): raciocínio visual com resolução nativa de 1920×1080

Inteligência em documentos: inferência a partir de entradas multimodais, cruzando imagens, tabelas, capturas de tela e mídia mista

Compreensão de áudio/vídeo: integrar fala, cenas e registros em uma única cadeia de inferência

Adoção por lineup: entra a Foxconn, Palantir; CEO da H Company faz declaração nominal

No anúncio, a NVIDIA separa claramente “adoção em produção” de “em avaliação”:

Já em produção: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Em avaliação: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr etc.

O CEO da H Company, Gautier Cloix, fez uma declaração nominal no anúncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Tradução: “Para construir agentes úteis, você não pode esperar segundos para o modelo interpretar uma tela. Ao construir sobre o Nemotron 3 Nano Omni, nossos agentes podem interpretar rapidamente gravações de tela em full HD — algo que antes não era viável.”

Estratégia de código aberto e implantação: pesos / datasets / métodos de treinamento totalmente abertos

No lançamento, a NVIDIA disponibiliza também:

Pesos do modelo

Conjuntos de dados de treinamento

Técnicas/métodos de treinamento

A esteira de implantação abrange três camadas:

Estações de trabalho locais: NVIDIA DGX Spark, DGX Station

Microserviços NIM: build.nvidia.com

Plataformas de terceiros: Hugging Face, OpenRouter, além de fornecer via mais de 25 NVIDIA Cloud Partners, plataformas de inferência e provedores de serviço em nuvem

Ferramentas personalizadas utilizam NVIDIA NeMo. A família Nemotron 3 (Nano/Super/Ultra) acumulou no ano passado mais de 50 milhões de downloads no Hugging Face; desta vez, o Omni estende as capacidades dessa família para os domínios multimodal e agentic.

Este artigo sobre o lançamento do Nemotron 3 Nano Omni como código aberto multimodal da NVIDIA apareceu pela primeira vez em 鏈新聞 ABMedia.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.

Notícias relacionadas

05-07 08:21

A Prime Intellect Lab lança disponibilidade geral em 7 de maio e conclui mais de 10.000 execuções de treinamento na versão beta

05-07 02:01

OpenAI lança o protocolo MRC com AMD, Broadcom, Intel, Microsoft e Nvidia

05-06 14:06

A OpenAI Lança Protocolo de Rede MRC com AMD, Intel e NVIDIA; Suporta 100.000+ GPUs

Claude／GPT adoram agradar demais? Um trecho de prompt do Claude.md faz a IA fornecer respostas firmes e precisas

ChainNewsAbmedia05-07 09:35

OpenAI lança o ChatGPT Futures: 26 alunos da primeira turma recebem bolsa de US$ 10 mil, abrangendo mais de 20 universidades

ChainNewsAbmedia05-07 09:34

Nvidia e MediaTek se unem para construir o futuro de um assistente nativo de IA para carros

ChainNewsAbmedia05-07 06:54

Chrome 偷裝 4GB de IA, apaga e reinstala; pesquisador diz que viola leis de privacidade da UE

Market Whisper05-07 06:29

A OpenAI divulga o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, AMD e a Microsoft para criar a infraestrutura do Stargate

ChainNewsAbmedia05-06 16:05

Comentário

0/400

Sem comentários