ตามประกาศของบล็อกทางการของ NVIDIA วันที่ 28 เมษายน (ผู้เขียน Kari Briski) NVIDIA ได้เปิดตัว Nemotron 3 Nano Omni — โมเดลหลายรูปแบบแบบโอเพนซอร์ส (multi-modal) ที่รวมความสามารถด้านการมองเห็น เสียง และภาษาเข้าไว้ในโมเดลเดียว โดยมีเป้าหมายเพื่อเป็น “ชั้นการรับรู้” สำหรับระบบ AI agent ที่มีความหน่วงต่ำกว่า และประหยัดต้นทุนกว่า
สเปกหลัก: 30B-A3B MoE, context 256K, ทรูพุต 9 เท่า, ขึ้นอันดับ 1 ใน 6 รายการ
สถาปัตยกรรมสำคัญ:
30B-A3B hybrid mixture-of-experts (พารามิเตอร์ทั้งหมด 30B, พารามิเตอร์ที่ใช้งาน 3B)
ผสาน Conv3D และ EVS encoding
ความยาว context 256K
อินพุต: ข้อความ, ภาพ, เสียง, วิดีโอ, เอกสาร, แผนภูมิ, หน้าจอ GUI
เอาต์พุต: ข้อความ
สัญญาณด้านประสิทธิภาพ: ทรูพุตสูงกว่าโมเดล omni โอเพนซอร์สอื่นๆ ถึง 9 เท่า ภายใต้ความสามารถในการโต้ตอบระดับเดียวกัน; ครองอันดับ 1 ในบenchmark รวม 6 รายการ จาก 3 หมวดหลัก ได้แก่ เอกสารอัจฉริยะ การเข้าใจวิดีโอ และการเข้าใจเสียง (NVIDIA ไม่ได้ระบุคะแนนเฉพาะรายละเอียดในประกาศ และชี้ให้ผู้อ่านไปดูข้อมูลเพิ่มเติมในบล็อกของนักพัฒนา)
NVIDIA วางตำแหน่ง Nemotron 3 Nano Omni ให้เป็น “ตาและหู” ในระบบ agent สามารถแบ่งงานกับโมเดลตระกูลเดียวกันอย่าง Nemotron 3 Super (ประมวลผลความถี่สูง) และ Nemotron 3 Ultra (วางแผนที่ซับซ้อน) รวมถึงเชื่อมต่อ/ทำงานร่วมกับโมเดลบนคลาวด์ของบุคคลที่สามได้ด้วย
กรณีการใช้งาน agent ที่เป็นตัวอย่าง 3 แบบ:
ตัวแทนการใช้งานคอมพิวเตอร์ (Computer Use Agent): การอนุมานด้วยภาพที่ระดับความละเอียด 1920×1080 แบบดั้งเดิม
เอกสารอัจฉริยะ: อนุมานข้ามรูป ภาพ ตาราง ภาพจับหน้าจอ และอินพุตแบบสื่อผสม
การเข้าใจเสียง/วิดีโอ: รวมคำพูด ภาพ และบันทึก ให้เป็นสตรีมการอนุมานเดี่ยว
รายชื่อผู้ร่วมใช้งาน/ผู้ให้การสนับสนุน: Foxconn, Palantir เข้าร่วม รวมถึง CEO ของ H Company ออกแถลงการณ์แบบระบุชื่อ
ในประกาศ NVIDIA แยกไว้อย่างชัดเจนระหว่าง “การใช้งานจริง” และ “กำลังประเมิน”:
ใช้งานจริงแล้ว: Aible, Applied Scientific Intelligence (ASI), Eka Care, 鸿海 (Foxconn), H Company, Palantir, Pyler
กำลังประเมิน: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr ฯลฯ
Gautier Cloix ซีอีโอของ H Company ได้ออกแถลงการณ์แบบระบุชื่อในประกาศว่า: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” แปล: “การสร้าง agent ที่ใช้งานได้จริง คุณรอไม่ได้ว่าต้องใช้เวลาเป็นวินาทีให้โมเดลตีความหน้าจอ เมื่อสร้างบน Nemotron 3 Nano Omni เราให้ agent ของเราตีความวิดีโอการบันทึกหน้าจอแบบ Full HD ได้อย่างรวดเร็ว — ซึ่งก่อนหน้านี้ทำได้ไม่เป็นเรื่องจริงจัง”
กลยุทธ์ด้านโอเพนซอร์สและการนำไปใช้งาน (deployment): เผยแพร่ weights / datasets / วิธีการฝึกทั้งหมด
NVIDIA เปิดเผยพร้อมการเปิดตัว:
น้ำหนักโมเดล (model weights)
ชุดข้อมูลสำหรับการฝึก (training datasets)
เทคนิค/แนวทางการฝึก (training techniques/methodologies)
ไปป์ไลน์การนำไปใช้งานครอบคลุม 3 ชั้น:
เครื่องเวิร์กสเตชันภายในองค์กร: NVIDIA DGX Spark, DGX Station
ไมโครเซอร์วิส NIM: build.nvidia.com
แพลตฟอร์มของบุคคลที่สาม: Hugging Face, OpenRouter และผ่าน NVIDIA Cloud Partners มากกว่า 25 ราย รวมถึงแพลตฟอร์มการอนุมานและผู้ให้บริการคลาวด์
สำหรับเครื่องมือแบบปรับแต่งเฉพาะ ใช้ NVIDIA NeMo โดยตลอดปีที่ผ่านมา โมเดลตระกูล Nemotron 3 (Nano/Super/Ultra) มียอดดาวน์โหลดสะสมบน Hugging Face มากกว่า 50 ล้านครั้ง และครั้งนี้ Omni ได้ขยายความสามารถของตระกูลดังกล่าวไปสู่ด้านมัลติโมดอลและงานในแนว agentic
บทความนี้ที่ NVIDIA เผยแพร่ Nemotron 3 Nano Omni โอเพนซอร์สโมเดลหลายรูปแบบ ออกมาเป็นครั้งแรกที่ 鏈新聞 ABMedia
btc.bar.articles
Virtuals Protocol เปิดตัว OpenGradient Titan Airdrop แจกจ่าย 500K OPG วันนี้
NeoSoul และ AllScale ประกาศความร่วมมือเชิงกลยุทธ์ด้านเครดิตสำหรับเอเจนต์และการชำระบัญชีสเตเบิลคอยน์ในวันนี้
FIS และ Anthropic พัฒนา AI Agents เพื่อการต่อต้านการฟอกเงิน โดยเตรียมทยอยเปิดตัวกับ BMO และ Amalgamated Bank ในช่วงครึ่งปีหลังของปี 2026
Prime Intellect Lab เปิดให้ใช้งานทั่วไป (General Availability) แล้วในวันที่ 7 พฤษภาคม พร้อมทำการฝึกอบรมมากกว่า 10,000 รอบระหว่างช่วงเบต้า
Cloudflare กระตุ้นการตอบกลับ HTTP 402 ถึง 1 พันล้านครั้งต่อวันในการประชุม Consensus 2026 เปิดตัวกรอบความเชื่อถือของเอเจนต์ร่วมกับ Visa และ Experian
Reid Hoffman: เอเจนต์ AI จะต้องใช้ระบบความเชื่อถือแบบคริปโต