Google DeepMind ได้นำเสนอโมเดลพื้นฐานสำหรับหุ่นยนต์รุ่นใหม่อย่าง Gemini Robotics ER 1.6 ซึ่ง ER ย่อมาจาก Embodied Reasoning (การให้เหตุผลแบบมีร่างกาย) โมเดลนี้ทำผลงานได้ดีที่สุดในปัจจุบัน (SOTA) ในด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ และได้เปิดให้ใช้งานผ่าน Gemini API แล้ว หัวหน้าฝ่ายความสัมพันธ์กับนักพัฒนา AI ของ Google อย่าง Logan Kilpatrick ได้ประกาศข่าวนี้บนโซเชียลมีเดีย (ที่มา)
อะไรคือ Embodied Reasoning?
Embodied Reasoning หมายถึงความสามารถของโมเดล AI ในการทำความเข้าใจและให้เหตุผลเกี่ยวกับโลกทางกายภาพ ต่างจากโมเดลภาษาทั่วไป โมเดลที่ให้เหตุผลแบบมีร่างกายจำเป็นต้องจัดการกับตำแหน่ง วัตถุในมิติสาม มิติ รูปร่าง วัสดุ และความสัมพันธ์ในการโต้ตอบเชิงฟิสิกส์ โมเดล Gemini Robotics ER 1.6 ได้รับการปรับให้เหมาะสมโดยเฉพาะสำหรับงานประเภทนี้ เพื่อให้หุ่นยนต์สามารถเข้าใจสภาพแวดล้อมรอบตัวได้แม่นยำยิ่งขึ้นและตัดสินใจเลือกการกระทำได้อย่างเหมาะสม
ความสามารถหลัก
ข้อได้เปรียบหลักของ Gemini Robotics ER 1.6 กระจุกตัวอยู่ที่สองด้าน:
ความสามารถ คำอธิบาย การให้เหตุผลเชิงการมองเห็น สามารถระบุวัตถุจากภาพและวิดีโอ เข้าใจโครงสร้างของฉาก และตัดสินใจตามนั้น การให้เหตุผลเชิงพื้นที่ เข้าใจตำแหน่งสัมพันธ์ ระยะทาง และทิศทางของวัตถุในพื้นที่มิติสาม สนับสนุนการวางแผนการปฏิบัติการที่ซับซ้อน
การผสานความสามารถทั้งสองนี้ทำให้หุ่นยนต์สามารถรับมือกับงานในโลกแห่งความเป็นจริงที่ซับซ้อนได้มากขึ้น ตัวอย่างเช่น ในสภาพแวดล้อมคลังสินค้า หุ่นยนต์จำเป็นต้องระบุวัตถุที่มีรูปร่างต่างกันพร้อมกัน และคำนวณมุมการหยิบจับและตำแหน่งการวางที่เหมาะที่สุด — นี่คือสถานการณ์ที่ Gemini Robotics ER 1.6 ทำได้ดีเป็นพิเศษ
การใช้งานผ่าน Gemini API
ต่างจากโมเดลหุ่นยนต์จำนวนมากในอดีตที่ยังคงอยู่ในขั้นของงานวิจัย Gemini Robotics ER 1.6 ได้ให้การเข้าถึงผ่าน Gemini API แล้ว นั่นหมายความว่านักพัฒนาและผู้ผลิตฮาร์ดแวร์สามารถนำโมเดลนี้ไปผสานเข้ากับระบบหุ่นยนต์ของตนได้โดยตรง โดยไม่จำเป็นต้องฝึกโมเดลตั้งแต่เริ่มต้น
การเปิด API ยังช่วยลดเกณฑ์ในการพัฒนา AI สำหรับหุ่นยนต์ ในอดีต การพัฒนาระบบหุ่นยนต์ที่มีความสามารถด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ต้องอาศัยการเก็บรวบรวมข้อมูลจำนวนมากและงานฝึกโมเดล ปัจจุบัน นักพัฒนาสามารถโฟกัสกับการพัฒนาด้านการออกแบบฮาร์ดแวร์และการใช้งานในสถานการณ์จริง โดยปล่อยความสามารถด้านการให้เหตุผลระดับล่างให้ Gemini Robotics ER 1.6 เป็นผู้จัดการ
แผนผัง AI หุ่นยนต์ของ Google
Gemini Robotics ER 1.6 คือผลงานล่าสุดของ Google DeepMind ในด้านหุ่นยนต์ ตั้งแต่ RT-2 ในช่วงแรกจนถึงปัจจุบันที่เป็นตระกูล Gemini Robotics Google ยังคงขยายขีดความสามารถของโมเดลภาษาขนาดใหญ่มาสู่การโต้ตอบกับโลกทางกายภาพ เวอร์ชัน ER 1.6 ยกระดับความแม่นยำในการให้เหตุผลจากเวอร์ชันก่อนหน้าให้ดียิ่งขึ้น โดยเฉพาะในสถานการณ์ที่ต้องใช้การปฏิบัติอย่างละเอียด ซึ่งทำได้โดดเด่นมาก
เมื่ออุตสาหกรรมหุ่นยนต์เข้าสู่ช่วงเติบโตระลอกใหม่ โมเดลพื้นฐานที่มีความสามารถด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่อย่างแข็งแกร่งจะกลายเป็นโครงสร้างพื้นฐานสำคัญ หากต้องการดูข้อมูลเพิ่มเติมเกี่ยวกับการพัฒนาของระบบนิเวศ Gemini สามารถดูได้จากคู่มือฉบับสมบูรณ์ของ Gemini
บทความนี้ Google เปิดตัว Gemini Robotics ER 1.6:โมเดลหุ่นยนต์ SOTA เชี่ยวชาญด้านการให้เหตุผลเชิงการมองเห็นและเชิงพื้นที่ ปรากฏครั้งแรกบน 鏈新聞 ABMedia
btc.bar.articles
OpenClaw ปล่อย v2026.5.2 พร้อมการย้ายปลั๊กอินจาก npm ไปยัง ClawHub และแก้ไขบั๊กมากกว่า 200 รายการ
บาวแมน กรรมการเฟด: หน่วยงานกำกับดูแลต้องพิจารณาว่าจะรับมือกับเทคโนโลยีใหม่อย่าง Anthropic Mythos อย่างไร
ศาลหางโจวสั่งห้ามการเลิกจ้างเฉพาะด้วย AI สนับสนุนลูกจ้าง หลังถูกลดค่าจ้าง 40% เมื่อวันที่ 28 เมษายน
ศาลจีนมีคำพิพากษาใหม่ล่าสุด: เหตุผลทางกฎหมายที่ทำให้การทำงานอัตโนมัติด้วย AI ไม่ถือเป็นการเลิกจ้าง
Hoskinson พูดถึงบทบาทของ Midnight ในระบบนิเวศของ Cardano บน The Breakdown
Berkshire Energy มองโอกาสการเติบโตจากความต้องการพลังงานที่ขับเคลื่อนด้วย AI