Oppo X-OmniClaw: แกดเจ็ต AI Agent สำหรับ Android แบบโอเพนซอร์ส ทำงานในเครื่องได้โดยไม่ต้องใช้คลาวด์

OliverGrant

2026-05-18 19:17:18

ทีม Multi-X ของ Oppo ได้เผยแพร่ X-OmniClaw ซึ่งเป็นกรอบงานเอเจนต์ AI สำหรับ Android แบบโอเพนซอร์ส โดยคงตรรกะหลักไว้บนอุปกรณ์โดยตรง และเรียกใช้โมเดลภาษาบนคลาวด์เฉพาะในงานที่ต้องใช้การคิดหนักเท่านั้น ไม่เหมือนระบบ AI มือถือส่วนใหญ่ที่รันบนเซิร์ฟเวอร์คลาวด์ซึ่งโฮสต์ Android เวอร์ชวลหลายชุด X-OmniClaw ทำงานโดยตรงบนอุปกรณ์จริงของผู้ใช้ ทำให้ยังเข้าถึงกล้อง รูปภาพ และไฟล์ในเครื่องของโทรศัพท์ได้

สถาปัตยกรรม: เสาหลัก 3 ประการของความฉลาดบนอุปกรณ์

X-OmniClaw ทำงานผ่านองค์ประกอบ 3 ส่วนที่เชื่อมต่อกัน และทำงานเป็นลูปต่อเนื่องเดียวตามเอกสารทางเทคนิคของ Oppo

Omni Perception รวมสตรีมจากกล้อง เนื้อหาบนหน้าจอ และอินพุตเสียงให้เป็นไปป์ไลน์เดียว โมเดลวิชัน-ภาษา (vision-language model) จะตีความฉากก่อนที่เอเจนต์จะลงมือทำ ตัวอย่างเช่น หากผู้ใช้ชี้กล้องไปที่สินค้าและถามราคา เอเจนต์จะระบุสิ่งที่กำลังมองเห็นก่อน จากนั้นจึงเปิดแอปช้อปปิ้งที่เกี่ยวข้องและเริ่มค้นหาโดยไม่ต้องรับอินพุตแบบพิมพ์เอง

Omni Memory แยก X-OmniClaw ออกจากแชตบอตแบบตอบครั้งเดียวด้วยการคงบริบทข้ามงาน การสลับแอป และเซสชัน เอเจนต์สร้างหน่วยความจำเชิงความหมายระยะยาวจากแกลเลอรีรูปภาพของผู้ใช้ โดยแปลงภาพดิบให้เป็นบันทึกที่มีโครงสร้างเกี่ยวกับวัตถุ ฉาก และเหตุการณ์ รายงานระบุว่า “ความต่อเนื่องระหว่างการทำงาน คือสิ่งที่ทำให้ X-OmniClaw ทำงานได้ในฐานะเอเจนต์ประจำอุปกรณ์อย่างต่อเนื่อง แทนที่จะเป็นระบบตอบแบบครั้งเดียว”

Omni Action จัดการการปฏิบัติด้วยการผสานข้อมูลอินเทอร์เฟซแบบ XML เข้ากับโมเดลการมองเห็นบนอุปกรณ์และระบบรู้จำอักขระด้วยแสง (OCR) เพื่อระบุได้อย่างแม่นยำว่าควรแตะตรงไหน แม้บนหน้าจอที่มีความรกมาก กรอบงานยังมีฟีเจอร์ทำพฤติกรรม (behavior cloning) ที่ทำให้ผู้ใช้สามารถบันทึกเส้นทางการนำทางครั้งเดียว แล้วเล่นซ้ำได้ทันทีในเซสชันถัดไปผ่านทาง Android deeplink shortcuts โดยหลีกเลี่ยงการนำทางแบบหลายขั้นในแอป

ตัวอย่างการใช้งานจริง

Oppo ได้สาธิตการใช้งานที่เป็นประโยชน์ของ X-OmniClaw หลายแบบ เช่น

การระบุสินค้าและการดูราคา: เอเจนต์ระบุสินค้าจริงผ่านกล้อง เปิด Taobao เลื่อนดูผลลัพธ์ และส่งสรุปราคา โดยไม่ต้องพิมพ์
ความช่วยเหลือด้านการศึกษา: คู่หูบนหน้าจอลอยช่วยให้ผู้ใช้ทำแบบฝึกคณิตทีละขั้น โดยอ่านเนื้อหาบนหน้าจอด้วยตนเอง ประมวลผลโจทย์แต่ละข้อ และเลื่อนไปขั้นถัดไปเมื่อทำเสร็จ
การสร้างวิดีโอจากแกลเลอรี: เมื่อให้ระบบประกอบวิดีโอไฮไลต์จากภาพในธีมนกแก้ว ระบบจะสแกนแกลเลอรีด้วยหน่วยความจำเชิงความหมายเพื่อหาภาพที่ตรงกัน เปิดโปรแกรมตัดต่อวิดีโอของ CapCut ผ่าน deeplink เลือกไฟล์แบบเป็นชุด และสร้างวิดีโอ รายงานชี้ว่ากระบวนการนี้ซึ่งก่อนหน้านี้ใช้เวลา “ไม่กี่นาทีหรือมากกว่า” ถูกลดเหลือเพียงไม่กี่ขั้นตอนที่ทำอัตโนมัติ

ตำแหน่งในระบบนิเวศเอเจนต์ AI

X-OmniClaw ต่อขยายสถาปัตยกรรมที่ริเริ่มโดย OpenClaw ซึ่งเป็นกรอบงานเอเจนต์แบบโอเพนซอร์สที่ไปแตะมากกว่า 373,000 ดาวบน GitHub และในที่สุดได้รับการสนับสนุนโดย OpenAI Hermes Agent ของ Nous Research ได้ผลักดันแนวคิดนี้ให้ก้าวหน้าไปอีกด้วยลูปการเรียนรู้ที่พัฒนาตนเอง ซึ่งจะเพิ่มขีดความสามารถไปตามเวลา ทั้งสองโปรเจกต์ทำงานหลักบนฮาร์ดแวร์เดสก์ท็อป X-OmniClaw ปรับสถาปัตยกรรมนี้สำหรับสมาร์ทโฟน โดยต่อยอดจากโค้ดเบส HermesApp แบบโอเพนซอร์ส และนำโมเดลสกิลเชิงโครงสร้างของ OpenClaw มาเป็นแรงบันดาลใจพื้นฐาน จากนั้นจึงปรับแต่งให้เหมาะกับลักษณะมัลติโหมดและพร้อมทำงานตลอดเวลาของอุปกรณ์มือถือ

โค้ดพร้อมให้ใช้งานบน GitHub โดย Oppo ตั้งใจจะปล่อยทรัพย์สินทั้งหมด และอัปเดตโปรเจกต์ต่อไปเมื่อระบบมีการพัฒนาไปเรื่อยๆ

news.view.source

news.article.disclaimer

news.related.news

12 ชั่วโมง ที่แล้ว

UNI AI เตรียมเปิดตัวระบบปฏิบัติการ AI แบบออนเชน และ Masterpay Global เข้ากลายเป็นนักลงทุนเชิงกลยุทธ์

19 ชั่วโมง ที่แล้ว

Sygnum ดำเนินการทดลองเทรดสินทรัพย์ดิจิทัลด้วยเอเจนต์ AI บนเครือข่ายบล็อกเชนหลักเสร็จสิ้นแล้ว

05-17 22:11

ยกย่องหัวหน้านักวิทยาศาสตร์ด้าน AI: AI กำลังพัฒนาไปสู่ AgenticOS, AgenticOS เตรียมเปิดตัวพร้อม MagicOS 11 ภายในปีนี้

btc.bar.articles

3 อัลต์คอยน์น่าซื้อเพื่อโอกาสผลตอบแทนสูง: ตลาดจับตาการพุ่งขึ้น 3 เท่าในระยะสั้น

Crypto News Land10 ชั่วโมง ที่แล้ว

Hermes Agent v0.14.0 เปิดตัว ผู้ใช้แบบสมัครสมาชิกไม่จำเป็นต้องเรียกดูผ่าน API Key เพื่อเข้าถึงบริการหลัก

Market Whisper20 ชั่วโมง ที่แล้ว

ฟังก์ชันการเงินส่วนบุคคลของ ChatGPT เปิดให้บริการในสหรัฐฯ แล้ว ช่วยดูบัญชีธนาคารส่วนบุคคลได้

Market Whisper20 ชั่วโมง ที่แล้ว

X เผยซอร์สโค้ดอัลกอริทึมแนะนำ “For You”: คู่มือเชิงปฏิบัติในการใช้ระบบอัลกอริทึมเพื่อบริหารบัญชีบน Twitter

ChainNewsAbmedia05-16 13:25

วอลเล็ตแบบเอเจนต์ (agentic wallets) ของ TON ทำให้บอทบน Telegram กลายเป็นหน่วยงานสำหรับการใช้จ่าย

Cryptonews05-15 14:37

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น