NVIDIA công bố Nemotron 3 Nano Omni mã nguồn mở đa phương thức

Theo thông báo ngày 28 tháng 4 trên blog chính thức của NVIDIA (tác giả Kari Briski), NVIDIA đã công bố Nemotron 3 Nano Omni — một mô hình đa phương thức mã nguồn mở, tích hợp năng lực về thị giác, giọng nói và ngôn ngữ vào một mô hình duy nhất, nhằm cung cấp cho hệ thống AI agent một lớp “cảm nhận” độ trễ thấp và chi phí thấp hơn.

Thông số cốt lõi: 30B-A3B MoE, context 256K, thông lượng gấp 9 lần, đứng đầu 6 bảng xếp hạng

Kiến trúc then chốt:

30B-A3B hybrid mixture-of-experts (tổng tham số 30B, kích hoạt 3B)

Tích hợp Conv3D và EVS encoding

Độ dài context 256K

Đầu vào: văn bản, hình ảnh, âm thanh, video, tài liệu, biểu đồ, màn hình GUI

Đầu ra: văn bản

Tín hiệu hiệu năng: đạt thông lượng gấp 9 lần so với các mô hình omni mã nguồn mở khác trong điều kiện tương đương về mức độ tương tác; vươn lên vị trí số 1 ở tổng cộng 6 bảng xếp hạng thuộc 3 nhóm hạng mục lớn gồm trí tuệ tài liệu, hiểu video và hiểu âm thanh (thông báo của NVIDIA không nêu cụ thể điểm số, nhằm hướng người đọc tới blog dành cho nhà phát triển để xem chi tiết).

NVIDIA định vị Nemotron 3 Nano Omni như “đôi mắt và đôi tai” trong hệ thống agent, có thể phân công cùng họ mô hình với Nemotron 3 Super (thực thi tần suất cao), Nemotron 3 Ultra (lập kế hoạch phức tạp) và cũng có thể tương tác với các mô hình đám mây bên thứ ba. Ba tình huống ứng dụng agent điển hình:

Tác nhân thao tác máy tính (Computer Use Agent): suy luận thị giác ở độ phân giải gốc 1920×1080

Trí tuệ tài liệu: suy luận đầu vào đa dạng gồm biểu đồ, bảng, ảnh chụp màn hình và phương tiện trộn

Hiểu âm thanh/video: tích hợp lời nói, hình ảnh và nội dung ghi chép thành một chuỗi suy luận đơn

Đội ngũ áp dụng: Foxconn/鸿海 (Foxconn) tham gia, Palantir gia nhập, H Company CEO nêu tên bày tỏ lập trường

Trong thông báo, NVIDIA phân biệt rõ giữa “đã triển khai sản xuất” và “đang đánh giá”:

Đã sản xuất: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler

Đang đánh giá: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr…

CEO H Company Gautier Cloix trong thông báo nêu tên bày tỏ: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Dịch: “Để xây dựng các agent hữu ích, bạn không thể chờ vài giây để mô hình giải đọc màn hình. Dựa trên Nemotron 3 Nano Omni, các agent của chúng tôi có thể nhanh chóng giải đọc các bản ghi màn hình Full HD — điều trước đây không thực tế để làm.”

Chiến lược mã nguồn mở và triển khai: weights / datasets / phương pháp huấn luyện đều công khai

Tại thời điểm phát hành, NVIDIA công bố đồng thời:

Trọng số mô hình (model weights)

Bộ dữ liệu huấn luyện

Kỹ thuật/phương pháp huấn luyện

Chuỗi triển khai bao gồm ba lớp:

Trạm làm việc tại chỗ: NVIDIA DGX Spark, DGX Station

Dịch vụ vi mô NIM: build.nvidia.com

Nền tảng bên thứ ba: Hugging Face, OpenRouter, và thông qua hơn 25 NVIDIA Cloud Partners, các nền tảng suy luận và nhà cung cấp dịch vụ đám mây để cung cấp

Công cụ tùy biến sử dụng NVIDIA NeMo. Họ Nemotron 3 (Nano/Super/Ultra) trong năm qua đã tích lũy hơn 50 triệu lượt tải về trên Hugging Face; lần Omni này mở rộng năng lực của họ mô hình đó sang lĩnh vực đa phương thức và agentic.

Bài viết NVIDIA phát hành Nemotron 3 Nano Omni mã nguồn mở đa phương thức xuất hiện sớm nhất ở 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Virtuals Protocol ra mắt OpenGradient Titan Airdrop, phân phối 500K OPG hôm nay

Theo thông báo chính thức của Virtuals Protocol, sự kiện OpenGradient Titan Launch airdrop hiện đã được kích hoạt kể từ ngày 7/5. Người dùng đủ điều kiện có thể nhận (claim) token OPG trực tiếp từ tài khoản Virtuals của mình. Tổng cộng 500.000 token OPG đang được phân phối hôm nay để thưởng cho những người đóng góp cho Virtuals

GateNews1giờ trước

NeoSoul và AllScale công bố quan hệ đối tác chiến lược về tín dụng tác nhân và thanh toán bằng stablecoin ngay hôm nay

Theo ChainCatcher, dự án AI Agent Economy NeoSoul hôm nay (7/5) đã công bố quan hệ đối tác chiến lược với AllScale nhằm nghiên cứu cơ chế hình thành tín dụng và thanh toán bằng stablecoin cho sự cộng tác của các Agent tự động. Quan hệ đối tác này sẽ tập trung vào việc tự động hóa các luồng thanh toán giữa các Agent—trong đó

GateNews2giờ trước

FIS và Anthropic phát triển các tác nhân AI để chống rửa tiền, triển khai cho BMO và Amalgamated Bank trong nửa cuối năm 2026

FIS và Anthropic đang phát triển các tác nhân AI nhằm tự động hóa điều tra tội phạm tài chính, bắt đầu với các hoạt động chống rửa tiền. Tác nhân AI về Tội phạm Tài chính sẽ trích xuất dữ liệu từ các hệ thống ngân hàng, đánh giá các giao dịch dựa trên các kiểu hình (typologies) đã biết và hỗ trợ các điều tra viên trong việc rà soát al

GateNews3giờ trước

Prime Intellect Lab ra mắt phiên bản sẵn sàng chung (GA) vào ngày 7/5, hoàn tất hơn 10.000 lượt huấn luyện trong giai đoạn beta

Theo Prime Intellect, nền tảng Lab của công ty đã thoát khỏi giai đoạn beta vào ngày 7/5/2026, chuyển sang sẵn sàng đại trà như một môi trường huấn luyện end-to-end cho các tác nhân AI tự cải tiến. Đường ống hợp nhất sẽ hợp nhất các quy trình cải tiến mô hình, cho phép người dùng xác định nhiệm vụ, cấu hình

GateNews4giờ trước

Cloudflare kích hoạt 1 tỷ phản hồi HTTP 402 mỗi ngày tại Consensus 2026, ra mắt khung niềm tin tác nhân với Visa và Experian

Theo Foresight News, giám đốc công nghệ mảng bảo mật (CSO) của Cloudflare, Stephanie Cohen, cho biết tại Consensus 2026 rằng nền tảng này kích hoạt khoảng 1 tỷ phản hồi HTTP 402 mỗi ngày, phản ánh nhu cầu truy cập trả phí vào nội dung web của các tác nhân AI. Công ty, cùng với Visa và Experian, đã công bố Agent Trust

GateNews6giờ trước

Reid Hoffman: AI Agents Sẽ Cần Các Hệ Thống Niềm Tin Crypto

Reid Hoffman, đối tác của Greylock và đồng sáng lập LinkedIn, cho biết các tác nhân tự động sẽ cần các hệ thống niềm tin dựa trên crypto để giao dịch qua mạng internet mở, gợi ý rằng sự phát triển này có thể mở đường cho NFT quay trở lại. Phát biểu của Hoffman liên kết sự xuất hiện của các tác nhân tự động với

CryptoFrontier8giờ trước
Bình luận
0/400
Không có bình luận