ทีม Qwen ของ Alibaba เปิดตัว Qwen-Robot Suite ในวันอังคาร ซึ่งเป็นชุดโมเดลพื้นฐานจำนวน 3 ตัว ออกแบบมาเพื่อขับเคลื่อนการนำทางของหุ่นยนต์ การจัดการ/หยิบจับ และการจำลองโลกตามฟิสิกส์ผ่านซอฟต์แวร์สแตกแบบครบวงจรชุดเดียว บริษัทประกาศชุดดังกล่าวผ่าน Twitter เมื่อวันที่ 16 มิถุนายน 2026 โดยวางตำแหน่งเทคโนโลยีว่าเป็น “full stack for embodied intelligence” ตามที่บริษัทเรียก ชุดโมเดลนี้ถูกพัฒนาขึ้นเพื่อรับมือความท้าทายหลักในวงการหุ่นยนต์: ในขณะที่เอเจนต์ AI ในปัจจุบันอาศัย large language models สำหรับการตัดสินใจ แต่หุ่นยนต์ทางกายภาพต้องการระบบ generative AI ที่สามารถรับมือโหมดความล้มเหลวที่อิงฟิสิกส์ได้ ไม่ใช่การให้เหตุผลแบบอาศัยพรอมป์ ความพร้อมใช้งานดังกล่าวสะท้อนกลยุทธ์การบูรณาการแนวตั้งของ Alibaba ที่ครอบคลุมตั้งแต่ชิป โครงสร้างพื้นฐานคลาวด์ โมเดล AI ไปจนถึงแอปพลิเคชัน โดยการทำให้หุ่นยนต์เป็น “นิยามที่จับต้องได้” ที่สุดของการพัฒนา embodied AI ในจีน
Qwen-Robot Suite ประกอบด้วยโมเดลพื้นฐาน 3 ตัว โดยแต่ละตัวรับผิดชอบด้านของความฉลาดของหุ่นยนต์ที่แตกต่างกัน Qwen-RobotNav จัดการงานด้านการเคลื่อนที่และการนำทาง Qwen-RobotManip จัดการงานด้านการหยิบจับและการมีปฏิสัมพันธ์ทางกายภาพกับวัตถุ Qwen-RobotWorld จำลองฟิสิกส์ที่ทำให้ทั้งการนำทางและการจัดการทำงานได้ ตามที่ Alibaba ระบุ โมเดลแต่ละตัวทำงานอย่างอิสระ แต่เมื่อรวมกันจะก่อให้เกิดสแตกซอฟต์แวร์ที่ทำงานร่วมกันได้ บริษัทอธิบายสถาปัตยกรรมว่าเป็นเลเยอร์ “ระบบปฏิบัติการ” สำหรับงานหุ่นยนต์ ไม่ใช่ฮาร์ดแวร์
Qwen-RobotNav รวมงานนำทาง 5 ประเภทไว้ในโมเดลเดียว ได้แก่ การทำตามคำสั่ง การนำทางไปยังจุดหมาย การค้นหา/หาอ็อบเจ็กต์ การติดตามเป้าหมาย และการขับขี่แบบอัตโนมัติ โมเดลเปิดอินเทอร์เฟซที่ปรับแต่งได้พร้อมงบประมาณโทเคนตามพารามิเตอร์ การลดทอนตามเวลา และค่าน้ำหนักรายกล้อง ซึ่ง planner สามารถปรับโครงสร้างใหม่ระหว่างการทำงานได้ Alibaba ฝึกโมเดลด้วยข้อมูล 15.6 ล้านตัวอย่าง โดยสุ่มความแปรผันในพารามิเตอร์ทั้งหมด
Qwen-RobotManip รับมือกับความท้าทายของการแทนการกระทำที่ไม่เข้ากันระหว่างแพลตฟอร์มหุ่นยนต์ต่าง ๆ แขน Franka ทำงานผ่านมุมข้อต่อ ขณะที่หุ่นยนต์ ALOHA แทนการกระทำด้วยตำแหน่งและทิศทางของกริปเปอร์ หุ่นยนต์แบบ humanoid ใช้พิกัดทั้งตัว Alibaba สังเคราะห์ข้อมูลเทรนนิ่งราว 38,100 ชั่วโมงจากชุดข้อมูลหุ่นยนต์โอเพนซอร์สและวิดีโอของมนุษย์ เพื่อเชื่อมช่องว่างของสเปซการกระทำที่ไม่สอดคล้องกันเหล่านี้
Qwen-RobotWorld ทำหน้าที่เป็นโมเดลโลกวิดีโอที่ถูกกำหนดโดยภาษา โดยใช้ภาษาธรรมชาติเป็นอินเทอร์เฟซการกระทำแบบสากล โมเดลประมวลผลคำสั่ง เช่น “Pick up the red cup and pour water on the flower” ข้ามประเภทหุ่นยนต์ที่แตกต่างกัน รวมถึงกริปเปอร์ รถยนต์/ยานพาหนะที่ขับเคลื่อนอัตโนมัติ และเอเจนต์นำทางเคลื่อนที่ Embodied World Knowledge ครอบคลุมวิดีโอ-ข้อความ 8.6 ล้านคู่ รวม 200 ล้านเฟรมในสถานการณ์ด้านการหยิบจับ การขับขี่อัตโนมัติ การนำทางในอาคาร และการถ่ายโอนจากมนุษย์สู่หุ่นยนต์
Qwen-RobotNav ทำความสำเร็จ 76.5% บน VLN-CE RxR ซึ่งเป็นเบนช์มาร์กสำหรับการนำทางด้วยวิชั่นและภาษาในสภาพแวดล้อมโลกจริง โมเดลยังทำผลงานการติดตาม 90% บน EVT-Bench ซึ่งประเมินความสามารถของเอเจนต์ในการติดตามเป้าหมายที่เคลื่อนที่ได้อย่างสม่ำเสมอ
Qwen-RobotManip อันดับ 1 บน RoboChallenge Table30-v1 โดยทำได้ดีกว่าวิธีการก่อนหน้า 20% ผลงานของโมเดลมาจากแนวทาง “จัดตำแหน่งก่อน” (alignment-first) สำหรับการเทรนข้ามรูปร่าง/ข้ามการเป็นตัวหุ่น (cross-embodiment)
Qwen-RobotWorld อันดับ 1 บน EWMBench และ DreamGen Bench ซึ่งเป็นเบนช์มาร์กที่ประเมินว่า world models สามารถทำนายและสร้างสภาพแวดล้อมทางกายภาพที่สมจริงได้หรือไม่ โมเดลทำได้ดีกว่าโมเดลโอเพนซอร์สทั้งหมดบน WorldModelBench และ PBench Alibaba รายงานว่าโมเดลได้คะแนนเต็มแบบสมบูรณ์ในการทดสอบการยึดตามฟิสิกส์ที่ครอบคลุมกฎของ Newton การอนุรักษ์มวล พลศาสตร์ของไหล และแรงโน้มถ่วง
Alibaba ฝึก Qwen-RobotNav ด้วยข้อมูล 15.6 ล้านตัวอย่าง โดยสุ่มความแปรผันในพารามิเตอร์ด้านการนำทาง บริษัทไม่ได้เปิดเผยชุดข้อมูลต้นทางที่เฉพาะเจาะจงสำหรับการฝึกด้านการนำทาง
สำหรับ Qwen-RobotManip Alibaba สังเคราะห์ข้อมูลเทรนนิ่งราว 38,100 ชั่วโมงจากชุดข้อมูลหุ่นยนต์โอเพนซอร์สและวิดีโอของมนุษย์ บริษัทระบุว่าไม่ได้พึ่งพาการเก็บข้อมูลแบบกรรมสิทธิ์สำหรับการฝึกโมเดลการจัดการ/หยิบจับ
Embodied World Knowledge ของ Qwen-RobotWorld มีวิดีโอ-ข้อความ 8.6 ล้านคู่ ครอบคลุม 200 ล้านเฟรม คอร์ปัสประกอบด้วยข้อมูลสำหรับการหยิบจับ 5.9 ล้านตัวอย่าง ครอบคลุม 1,300+ ทักษะ ในหุ่นยนต์ 20+ รูปร่าง/โมเดลทางสัณฐานวิทยา ข้อมูลการขับขี่อัตโนมัติมาจากชุดข้อมูล Waymo, NVIDIA PhysicalAI-AD และ Bench2Drive ข้อมูลการนำทางในอาคารได้มาจาก VLNVerse ข้อมูลการถ่ายโอนจากมนุษย์สู่หุ่นยนต์ครอบคลุมแขนหุ่นยนต์ 14 ตัว
Alibaba ระบุว่าการนำหุ่นยนต์ไปใช้งานจริงยังอีกหลายปี บริษัทรับทราบช่องว่างระหว่างสภาพแวดล้อมการสาธิตที่ควบคุมได้ กับการทำงานในโลกจริงที่เชื่อถือได้ RoboCasa365, LIBERO-Plus และ RoboTwin-Clean2Rand เป็นเกณฑ์วัดในการจำลอง ไม่ใช่สถานการณ์การนำไปใช้งานจริง การนำไปใช้งานจริงจะเผชิญกับสัญญาณรบกวนของเซนเซอร์ การดริฟต์ของแอคชูเอเตอร์ และเคสขอบ/กรณีแปลก ๆ ซึ่ง Alibaba มองว่าเป็นความท้าทายที่ยังคงดำเนินอยู่
โมเดลเป็นระบบซอฟต์แวร์ที่ออกแบบมาให้ทำงานบนฮาร์ดแวร์จากผู้ผลิต ได้แก่ AgileX, Franka, Universal Robots และ Unitree Alibaba ยังไม่เปิดเผยราคา ไทม์ไลน์การใช้งานที่เฉพาะเจาะจง หรือว่าลูกค้ารายใดจะได้รับการเข้าถึงนอกเหนือจากโครงการนำร่อง
Alibaba ประกาศอะไรเมื่อวันที่ 16 มิถุนายน 2026?
ทีม Qwen ของ Alibaba ประกาศ Qwen-Robot Suite ในวันอังคารที่ 16 มิถุนายน 2026 ประกอบด้วยโมเดลพื้นฐาน 3 ตัว ได้แก่ Qwen-RobotNav สำหรับการนำทาง, Qwen-RobotManip สำหรับการจัดการ/หยิบจับ และ Qwen-RobotWorld สำหรับการจำลองโลกตามฟิสิกส์ ตามที่บริษัทวางตำแหน่ง ชุดดังกล่าวเป็นสแตกซอฟต์แวร์แบบครบวงจรสำหรับ embodied intelligence ในด้านหุ่นยนต์
โมเดล Qwen-Robot ทำผลงานอะไรได้บ้างในเกณฑ์วัด?
Qwen-RobotNav ทำความสำเร็จ 76.5% บน VLN-CE RxR และ 90% บน EVT-Bench Qwen-RobotManip อันดับ 1 บน RoboChallenge Table30-v1 โดยทำได้ดีกว่าวิธีการก่อนหน้า 20% Qwen-RobotWorld อันดับ 1 บน EWMBench, DreamGen Bench, WorldModelBench และ PBench ในกลุ่มโมเดลโอเพนซอร์ส โดยได้คะแนนเต็มในการทดสอบการยึดตามฟิสิกส์
เมื่อไหร่โมเดล Qwen-Robot จะถูกนำไปใช้งานกับหุ่นยนต์ในโลกจริง?
Alibaba ระบุว่าการนำหุ่นยนต์ไปใช้งานจริงยังอีกหลายปี บริษัทไม่ได้เปิดเผยไทม์ไลน์เฉพาะ ราคาหรือว่าลูกค้ารายใดจะได้รับการเข้าถึงนอกเหนือจากโครงการนำร่อง
news.related.news
SpaceX ยื่นแบบฟอร์ม 8-K รายละเอียดการนำเงินจากการเสนอขายหุ้นครั้งแรก (IPO) ไปใช้กับงานด้าน AI และดาวเทียม
Cottonia จับมือกับ Matrix เพื่อบูรณาการการวิเคราะห์ด้วย AI บน BNB Chain
ประธานเจ้าหน้าที่บริหารของ Qualcomm: เอเจนต์ AI จะเข้ามาแทนที่แอป ขณะที่มีอุปกรณ์ใหม่กว่า 40 รุ่นเปิดตัว
VARA กำหนดให้บริษัทคริปโทในดูไบติดตามบัญชีดำ FATF ในคำแนะนำด้าน AML ปี 2026
โมเดล Rio 3.5 ของ IplanRIO พิสูจน์แล้วว่าใช้ Nex Weight Merge ในข้อพิพาทการระบุแหล่งที่มา