ทีม Multi-X ของ Oppo ได้เผยแพร่ X-OmniClaw ซึ่งเป็นกรอบงานเอเจนต์ AI สำหรับ Android แบบโอเพนซอร์ส โดยคงตรรกะหลักไว้บนอุปกรณ์โดยตรง และเรียกใช้โมเดลภาษาบนคลาวด์เฉพาะในงานที่ต้องใช้การคิดหนักเท่านั้น ไม่เหมือนระบบ AI มือถือส่วนใหญ่ที่รันบนเซิร์ฟเวอร์คลาวด์ซึ่งโฮสต์ Android เวอร์ชวลหลายชุด X-OmniClaw ทำงานโดยตรงบนอุปกรณ์จริงของผู้ใช้ ทำให้ยังเข้าถึงกล้อง รูปภาพ และไฟล์ในเครื่องของโทรศัพท์ได้
X-OmniClaw ทำงานผ่านองค์ประกอบ 3 ส่วนที่เชื่อมต่อกัน และทำงานเป็นลูปต่อเนื่องเดียวตามเอกสารทางเทคนิคของ Oppo
Omni Perception รวมสตรีมจากกล้อง เนื้อหาบนหน้าจอ และอินพุตเสียงให้เป็นไปป์ไลน์เดียว โมเดลวิชัน-ภาษา (vision-language model) จะตีความฉากก่อนที่เอเจนต์จะลงมือทำ ตัวอย่างเช่น หากผู้ใช้ชี้กล้องไปที่สินค้าและถามราคา เอเจนต์จะระบุสิ่งที่กำลังมองเห็นก่อน จากนั้นจึงเปิดแอปช้อปปิ้งที่เกี่ยวข้องและเริ่มค้นหาโดยไม่ต้องรับอินพุตแบบพิมพ์เอง
Omni Memory แยก X-OmniClaw ออกจากแชตบอตแบบตอบครั้งเดียวด้วยการคงบริบทข้ามงาน การสลับแอป และเซสชัน เอเจนต์สร้างหน่วยความจำเชิงความหมายระยะยาวจากแกลเลอรีรูปภาพของผู้ใช้ โดยแปลงภาพดิบให้เป็นบันทึกที่มีโครงสร้างเกี่ยวกับวัตถุ ฉาก และเหตุการณ์ รายงานระบุว่า “ความต่อเนื่องระหว่างการทำงาน คือสิ่งที่ทำให้ X-OmniClaw ทำงานได้ในฐานะเอเจนต์ประจำอุปกรณ์อย่างต่อเนื่อง แทนที่จะเป็นระบบตอบแบบครั้งเดียว”
Omni Action จัดการการปฏิบัติด้วยการผสานข้อมูลอินเทอร์เฟซแบบ XML เข้ากับโมเดลการมองเห็นบนอุปกรณ์และระบบรู้จำอักขระด้วยแสง (OCR) เพื่อระบุได้อย่างแม่นยำว่าควรแตะตรงไหน แม้บนหน้าจอที่มีความรกมาก กรอบงานยังมีฟีเจอร์ทำพฤติกรรม (behavior cloning) ที่ทำให้ผู้ใช้สามารถบันทึกเส้นทางการนำทางครั้งเดียว แล้วเล่นซ้ำได้ทันทีในเซสชันถัดไปผ่านทาง Android deeplink shortcuts โดยหลีกเลี่ยงการนำทางแบบหลายขั้นในแอป
Oppo ได้สาธิตการใช้งานที่เป็นประโยชน์ของ X-OmniClaw หลายแบบ เช่น
การระบุสินค้าและการดูราคา: เอเจนต์ระบุสินค้าจริงผ่านกล้อง เปิด Taobao เลื่อนดูผลลัพธ์ และส่งสรุปราคา โดยไม่ต้องพิมพ์
ความช่วยเหลือด้านการศึกษา: คู่หูบนหน้าจอลอยช่วยให้ผู้ใช้ทำแบบฝึกคณิตทีละขั้น โดยอ่านเนื้อหาบนหน้าจอด้วยตนเอง ประมวลผลโจทย์แต่ละข้อ และเลื่อนไปขั้นถัดไปเมื่อทำเสร็จ
การสร้างวิดีโอจากแกลเลอรี: เมื่อให้ระบบประกอบวิดีโอไฮไลต์จากภาพในธีมนกแก้ว ระบบจะสแกนแกลเลอรีด้วยหน่วยความจำเชิงความหมายเพื่อหาภาพที่ตรงกัน เปิดโปรแกรมตัดต่อวิดีโอของ CapCut ผ่าน deeplink เลือกไฟล์แบบเป็นชุด และสร้างวิดีโอ รายงานชี้ว่ากระบวนการนี้ซึ่งก่อนหน้านี้ใช้เวลา “ไม่กี่นาทีหรือมากกว่า” ถูกลดเหลือเพียงไม่กี่ขั้นตอนที่ทำอัตโนมัติ
X-OmniClaw ต่อขยายสถาปัตยกรรมที่ริเริ่มโดย OpenClaw ซึ่งเป็นกรอบงานเอเจนต์แบบโอเพนซอร์สที่ไปแตะมากกว่า 373,000 ดาวบน GitHub และในที่สุดได้รับการสนับสนุนโดย OpenAI Hermes Agent ของ Nous Research ได้ผลักดันแนวคิดนี้ให้ก้าวหน้าไปอีกด้วยลูปการเรียนรู้ที่พัฒนาตนเอง ซึ่งจะเพิ่มขีดความสามารถไปตามเวลา ทั้งสองโปรเจกต์ทำงานหลักบนฮาร์ดแวร์เดสก์ท็อป X-OmniClaw ปรับสถาปัตยกรรมนี้สำหรับสมาร์ทโฟน โดยต่อยอดจากโค้ดเบส HermesApp แบบโอเพนซอร์ส และนำโมเดลสกิลเชิงโครงสร้างของ OpenClaw มาเป็นแรงบันดาลใจพื้นฐาน จากนั้นจึงปรับแต่งให้เหมาะกับลักษณะมัลติโหมดและพร้อมทำงานตลอดเวลาของอุปกรณ์มือถือ
โค้ดพร้อมให้ใช้งานบน GitHub โดย Oppo ตั้งใจจะปล่อยทรัพย์สินทั้งหมด และอัปเดตโปรเจกต์ต่อไปเมื่อระบบมีการพัฒนาไปเรื่อยๆ
news.related.news
3 อัลต์คอยน์น่าซื้อเพื่อโอกาสผลตอบแทนสูง: ตลาดจับตาการพุ่งขึ้น 3 เท่าในระยะสั้น
Hermes Agent v0.14.0 เปิดตัว ผู้ใช้แบบสมัครสมาชิกไม่จำเป็นต้องเรียกดูผ่าน API Key เพื่อเข้าถึงบริการหลัก
ฟังก์ชันการเงินส่วนบุคคลของ ChatGPT เปิดให้บริการในสหรัฐฯ แล้ว ช่วยดูบัญชีธนาคารส่วนบุคคลได้
X เผยซอร์สโค้ดอัลกอริทึมแนะนำ “For You”: คู่มือเชิงปฏิบัติในการใช้ระบบอัลกอริทึมเพื่อบริหารบัญชีบน Twitter
วอลเล็ตแบบเอเจนต์ (agentic wallets) ของ TON ทำให้บอทบน Telegram กลายเป็นหน่วยงานสำหรับการใช้จ่าย