NVIDIA công bố Nemotron 3 Nano Omni mã nguồn mở đa phương thức

2026-05-07 10:56:27

Theo thông báo ngày 28 tháng 4 trên blog chính thức của NVIDIA (tác giả Kari Briski), NVIDIA đã công bố Nemotron 3 Nano Omni — một mô hình đa phương thức mã nguồn mở, tích hợp năng lực về thị giác, giọng nói và ngôn ngữ vào một mô hình duy nhất, nhằm cung cấp cho hệ thống AI agent một lớp “cảm nhận” độ trễ thấp và chi phí thấp hơn.

Thông số cốt lõi: 30B-A3B MoE, context 256K, thông lượng gấp 9 lần, đứng đầu 6 bảng xếp hạng

Kiến trúc then chốt:

30B-A3B hybrid mixture-of-experts (tổng tham số 30B, kích hoạt 3B)

Tích hợp Conv3D và EVS encoding

Độ dài context 256K

Đầu vào: văn bản, hình ảnh, âm thanh, video, tài liệu, biểu đồ, màn hình GUI

Đầu ra: văn bản

Tín hiệu hiệu năng: đạt thông lượng gấp 9 lần so với các mô hình omni mã nguồn mở khác trong điều kiện tương đương về mức độ tương tác; vươn lên vị trí số 1 ở tổng cộng 6 bảng xếp hạng thuộc 3 nhóm hạng mục lớn gồm trí tuệ tài liệu, hiểu video và hiểu âm thanh (thông báo của NVIDIA không nêu cụ thể điểm số, nhằm hướng người đọc tới blog dành cho nhà phát triển để xem chi tiết).

NVIDIA định vị Nemotron 3 Nano Omni như “đôi mắt và đôi tai” trong hệ thống agent, có thể phân công cùng họ mô hình với Nemotron 3 Super (thực thi tần suất cao), Nemotron 3 Ultra (lập kế hoạch phức tạp) và cũng có thể tương tác với các mô hình đám mây bên thứ ba. Ba tình huống ứng dụng agent điển hình:

Tác nhân thao tác máy tính (Computer Use Agent): suy luận thị giác ở độ phân giải gốc 1920×1080

Trí tuệ tài liệu: suy luận đầu vào đa dạng gồm biểu đồ, bảng, ảnh chụp màn hình và phương tiện trộn

Hiểu âm thanh/video: tích hợp lời nói, hình ảnh và nội dung ghi chép thành một chuỗi suy luận đơn

Đội ngũ áp dụng: Foxconn/鸿海 (Foxconn) tham gia, Palantir gia nhập, H Company CEO nêu tên bày tỏ lập trường

Trong thông báo, NVIDIA phân biệt rõ giữa “đã triển khai sản xuất” và “đang đánh giá”:

Đã sản xuất: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Đang đánh giá: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr…

CEO H Company Gautier Cloix trong thông báo nêu tên bày tỏ: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Dịch: “Để xây dựng các agent hữu ích, bạn không thể chờ vài giây để mô hình giải đọc màn hình. Dựa trên Nemotron 3 Nano Omni, các agent của chúng tôi có thể nhanh chóng giải đọc các bản ghi màn hình Full HD — điều trước đây không thực tế để làm.”

Chiến lược mã nguồn mở và triển khai: weights / datasets / phương pháp huấn luyện đều công khai

Tại thời điểm phát hành, NVIDIA công bố đồng thời:

Trọng số mô hình (model weights)

Bộ dữ liệu huấn luyện

Kỹ thuật/phương pháp huấn luyện

Chuỗi triển khai bao gồm ba lớp:

Trạm làm việc tại chỗ: NVIDIA DGX Spark, DGX Station

Dịch vụ vi mô NIM: build.nvidia.com

Nền tảng bên thứ ba: Hugging Face, OpenRouter, và thông qua hơn 25 NVIDIA Cloud Partners, các nền tảng suy luận và nhà cung cấp dịch vụ đám mây để cung cấp

Công cụ tùy biến sử dụng NVIDIA NeMo. Họ Nemotron 3 (Nano/Super/Ultra) trong năm qua đã tích lũy hơn 50 triệu lượt tải về trên Hugging Face; lần Omni này mở rộng năng lực của họ mô hình đó sang lĩnh vực đa phương thức và agentic.

Bài viết NVIDIA phát hành Nemotron 3 Nano Omni mã nguồn mở đa phương thức xuất hiện sớm nhất ở 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

05-07 08:21

Prime Intellect Lab ra mắt phiên bản sẵn sàng chung (GA) vào ngày 7/5, hoàn tất hơn 10.000 lượt huấn luyện trong giai đoạn beta

05-07 02:01

OpenAI ra mắt giao thức MRC với AMD, Broadcom, Intel, Microsoft và Nvidia

05-06 14:06

OpenAI ra mắt giao thức mạng MRC với AMD, Intel, NVIDIA; hỗ trợ 100.000+ GPU