Berdasarkan pengumuman 28 April dari blog resmi NVIDIA (penulis Kari Briski), NVIDIA meluncurkan Nemotron 3 Nano Omni — model multimodal open-source yang mengintegrasikan kemampuan visual, suara, dan bahasa ke dalam satu model, dengan target menyediakan “lapisan persepsi” bagi sistem AI agent yang lebih rendah latensi dan lebih hemat biaya.
Spesifikasi utama: 30B-A3B MoE, konteks 256K, throughput 9 kali lipat, meraih puncak di 6 papan peringkat
Arsitektur kunci:
30B-A3B hybrid mixture-of-experts (total parameter 30B, aktivasi 3B)
Mengintegrasikan Conv3D dan EVS encoding
Panjang konteks 256K
Input: teks, gambar, audio, video, dokumen, bagan, layar GUI
Output: teks
Sinyal performa: throughput 9 kali lipat dibanding model omni open-source lain pada interaktivitas setara; meraih peringkat pertama di 6 benchmark papan peringkat dalam tiga kategori besar: dokumen cerdas, pemahaman video, pemahaman audio (pengumuman NVIDIA tidak mencantumkan skor spesifik, mengarahkan pembaca ke blog pengembang untuk detail).
NVIDIA memposisikan Nemotron 3 Nano Omni sebagai “mata dan telinga” dalam sistem agent, dapat dibagi tugas dengan model keluarga Nemotron 3 Super (eksekusi frekuensi tinggi), Nemotron 3 Ultra (perencanaan kompleks), serta bisa berinteroperasi dengan model cloud dari pihak ketiga. Tiga skenario aplikasi agent yang umum:
Computer Use Agent: penalaran visual resolusi asli 1920×1080
Dokumen cerdas: penalaran dengan input lintas gambar, tabel, tangkapan layar, dan media campuran
Pemahaman audio/video: menggabungkan pembicaraan, gambar, dan rekaman menjadi satu rangkaian penalaran
Komposisi yang mengadopsi: Foxconn masuk, Palantir masuk, CEO H Company menandatangani pernyataan dukungan
Dalam pengumuman NVIDIA secara jelas membedakan “adopsi produksi” dan “sedang dievaluasi”:
Sudah produksi: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
Sedang evaluasi: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, dll.
CEO H Company Gautier Cloix dalam pengumuman tersebut menyatakan dukungan secara bernama: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Terjemahan: “Untuk membangun agent yang bermanfaat, Anda tidak bisa menunggu detik bagi model untuk menginterpretasikan layar. Dengan membangun di atas Nemotron 3 Nano Omni, agent kami dapat dengan cepat menginterpretasikan rekaman layar full HD — sesuatu yang sebelumnya tidak praktis untuk dilakukan.”
Strategi open-source dan penerapan: weights / datasets / metode pelatihan semuanya dipublikasikan
Saat rilis, NVIDIA juga mempublikasikan:
Bobot model
Kumpulan data pelatihan
Teknik/ metodologi pelatihan
Pipeline penerapan mencakup tiga lapisan:
Workstation lokal: NVIDIA DGX Spark, DGX Station
NIM microservices: build.nvidia.com
Platform pihak ketiga: Hugging Face, OpenRouter, serta melalui 25+ NVIDIA Cloud Partners, platform inferensi, dan penyedia layanan cloud
Tool kustom menggunakan NVIDIA NeMo. Keluarga Nemotron 3 (Nano/Super/Ultra) selama setahun terakhir di Hugging Face telah mengumpulkan lebih dari 50 juta unduhan, dan kali ini Omni memperluas kemampuan keluarga tersebut ke bidang multimodal dan agentic.
Artikel ini tentang NVIDIA yang merilis Nemotron 3 Nano Omni sebagai open-source multimodal pertama kali muncul di 鏈新聞 ABMedia.
Artikel Terkait
Virtuals Protocol Meluncurkan OpenGradient Titan Airdrop, Membagikan 500 ribu OPG Hari Ini
NeoSoul dan AllScale Mengumumkan Kemitraan Strategis untuk Kredit Agen dan Penyelesaian Stablecoin Hari Ini
FIS dan Anthropic Mengembangkan Agen AI untuk Anti Pencucian Uang, Akan Diluncurkan ke BMO dan Amalgamated Bank pada H2 2026
Prime Intellect Lab Meluncurkan General Availability pada 7 Mei, Menyelesaikan 10.000+ Sesi Pelatihan di Beta
Cloudflare Memicu 1 Miliar Respons HTTP 402 Harian pada Consensus 2026, Meluncurkan Kerangka Kepercayaan Agen dengan Visa dan Experian
Reid Hoffman: Agen AI Akan Membutuhkan Sistem Kepercayaan Kripto