Theo thông báo ngày 28 tháng 4 trên blog chính thức của NVIDIA (tác giả Kari Briski), NVIDIA đã công bố Nemotron 3 Nano Omni — một mô hình đa phương thức mã nguồn mở, tích hợp năng lực về thị giác, giọng nói và ngôn ngữ vào một mô hình duy nhất, nhằm cung cấp cho hệ thống AI agent một lớp “cảm nhận” độ trễ thấp và chi phí thấp hơn.
Thông số cốt lõi: 30B-A3B MoE, context 256K, thông lượng gấp 9 lần, đứng đầu 6 bảng xếp hạng
Kiến trúc then chốt:
30B-A3B hybrid mixture-of-experts (tổng tham số 30B, kích hoạt 3B)
Tích hợp Conv3D và EVS encoding
Độ dài context 256K
Đầu vào: văn bản, hình ảnh, âm thanh, video, tài liệu, biểu đồ, màn hình GUI
Đầu ra: văn bản
Tín hiệu hiệu năng: đạt thông lượng gấp 9 lần so với các mô hình omni mã nguồn mở khác trong điều kiện tương đương về mức độ tương tác; vươn lên vị trí số 1 ở tổng cộng 6 bảng xếp hạng thuộc 3 nhóm hạng mục lớn gồm trí tuệ tài liệu, hiểu video và hiểu âm thanh (thông báo của NVIDIA không nêu cụ thể điểm số, nhằm hướng người đọc tới blog dành cho nhà phát triển để xem chi tiết).
NVIDIA định vị Nemotron 3 Nano Omni như “đôi mắt và đôi tai” trong hệ thống agent, có thể phân công cùng họ mô hình với Nemotron 3 Super (thực thi tần suất cao), Nemotron 3 Ultra (lập kế hoạch phức tạp) và cũng có thể tương tác với các mô hình đám mây bên thứ ba. Ba tình huống ứng dụng agent điển hình:
Tác nhân thao tác máy tính (Computer Use Agent): suy luận thị giác ở độ phân giải gốc 1920×1080
Trí tuệ tài liệu: suy luận đầu vào đa dạng gồm biểu đồ, bảng, ảnh chụp màn hình và phương tiện trộn
Hiểu âm thanh/video: tích hợp lời nói, hình ảnh và nội dung ghi chép thành một chuỗi suy luận đơn
Đội ngũ áp dụng: Foxconn/鸿海 (Foxconn) tham gia, Palantir gia nhập, H Company CEO nêu tên bày tỏ lập trường
Trong thông báo, NVIDIA phân biệt rõ giữa “đã triển khai sản xuất” và “đang đánh giá”:
Đã sản xuất: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
Đang đánh giá: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr…
CEO H Company Gautier Cloix trong thông báo nêu tên bày tỏ: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Dịch: “Để xây dựng các agent hữu ích, bạn không thể chờ vài giây để mô hình giải đọc màn hình. Dựa trên Nemotron 3 Nano Omni, các agent của chúng tôi có thể nhanh chóng giải đọc các bản ghi màn hình Full HD — điều trước đây không thực tế để làm.”
Chiến lược mã nguồn mở và triển khai: weights / datasets / phương pháp huấn luyện đều công khai
Tại thời điểm phát hành, NVIDIA công bố đồng thời:
Trọng số mô hình (model weights)
Bộ dữ liệu huấn luyện
Kỹ thuật/phương pháp huấn luyện
Chuỗi triển khai bao gồm ba lớp:
Trạm làm việc tại chỗ: NVIDIA DGX Spark, DGX Station
Dịch vụ vi mô NIM: build.nvidia.com
Nền tảng bên thứ ba: Hugging Face, OpenRouter, và thông qua hơn 25 NVIDIA Cloud Partners, các nền tảng suy luận và nhà cung cấp dịch vụ đám mây để cung cấp
Công cụ tùy biến sử dụng NVIDIA NeMo. Họ Nemotron 3 (Nano/Super/Ultra) trong năm qua đã tích lũy hơn 50 triệu lượt tải về trên Hugging Face; lần Omni này mở rộng năng lực của họ mô hình đó sang lĩnh vực đa phương thức và agentic.
Bài viết NVIDIA phát hành Nemotron 3 Nano Omni mã nguồn mở đa phương thức xuất hiện sớm nhất ở 鏈新聞 ABMedia.
Bài viết liên quan
Virtuals Protocol ra mắt OpenGradient Titan Airdrop, phân phối 500K OPG hôm nay
NeoSoul và AllScale công bố quan hệ đối tác chiến lược về tín dụng tác nhân và thanh toán bằng stablecoin ngay hôm nay
FIS và Anthropic phát triển các tác nhân AI để chống rửa tiền, triển khai cho BMO và Amalgamated Bank trong nửa cuối năm 2026
Prime Intellect Lab ra mắt phiên bản sẵn sàng chung (GA) vào ngày 7/5, hoàn tất hơn 10.000 lượt huấn luyện trong giai đoạn beta
Cloudflare kích hoạt 1 tỷ phản hồi HTTP 402 mỗi ngày tại Consensus 2026, ra mắt khung niềm tin tác nhân với Visa và Experian
Reid Hoffman: AI Agents Sẽ Cần Các Hệ Thống Niềm Tin Crypto