نشر فريق Multi-X التابع لشركة Oppo إطار عمل وكلاء Android بنظام الذكاء الاصطناعي X-OmniClaw مفتوح المصدر، يحافظ على المنطق الأساسي على الجهاز مباشرةً، مع استدعاء نماذج لغوية تعتمد على السحابة فقط لمهام الاستدلال الثقيلة. على عكس معظم أنظمة الذكاء الاصطناعي في الهواتف التي تعمل على خوادم سحابية تستضيف نسخًا افتراضية من Android، ينفّذ X-OmniClaw مباشرةً على الجهاز المادي للمستخدم، محافظًا على إمكانية الوصول إلى كاميرا الهاتف والصور والملفات المحلية.
يعمل X-OmniClaw عبر ثلاثة مكوّنات مترابطة تعمل كحلقة مستمرة واحدة، وفقًا لوثائق Oppo التقنية.
Omni Perception يجمع بين تغذيات الكاميرا ومحتوى الشاشة وإدخال الصوت في خط عمل واحد. يفسّر نموذج رؤية-لغة المشهد قبل أن يتخذ الوكيل إجراءً. على سبيل المثال، إذا وجّه المستخدم كاميرته نحو منتج وطلب معرفة سعره، يحدد الوكيل أولًا ما الذي يراه، ثم يفتح تطبيق التسوق المناسب ويبدأ البحث دون الحاجة إلى إدخال يدوي.
Omni Memory يميّز X-OmniClaw عن روبوتات المحادثة لمرة واحدة عبر الحفاظ على السياق عبر المهام وتبديل التطبيقات والجلسات. يبني الوكيل ذاكرة دلالية طويلة الأمد اعتمادًا على معرض صور المستخدم، محوّلًا الصور الخام إلى ملاحظات منظّمة حول الأشياء والمشاهد والأحداث. ووفقًا للتقرير، فإن “استمرارية وقت التشغيل هي ما يسمح لـ X-OmniClaw بالعمل كوكيل جهاز مستمر بدلًا من نظام استجابة لمرة واحدة”.
Omni Action يتولى التنفيذ عبر الجمع بين بيانات واجهة XML ونماذج بصرية تعمل على الجهاز وإجراء التعرف على الأحرف بصريًا (OCR) لتحديد ما يجب النقر عليه بدقة، حتى على الشاشات المزدحمة. تتضمن المنصة ميزة استنساخ السلوك التي تتيح للمستخدم تسجيل مسار تنقل مرة واحدة، ثم إعادة تشغيله فورًا عبر اختصارات Android deeplink في الجلسات المستقبلية، متجاوزًا التنقل متعدد الخطوات داخل التطبيقات.
عرضت Oppo عدة تطبيقات عملية لـ X-OmniClaw:
تحديد المنتجات وتسعيرها: يحدد الوكيل منتجًا فعليًا عبر الكاميرا، ويفتح Taobao، ويقوم بالتمرير عبر النتائج، ثم يعيد ملخصًا للسعر دون الحاجة إلى أي كتابة.
مساعدة تعليمية: يساعد مرافق عائم على الشاشة المستخدم في حل تمارين الرياضيات خطوة بخطوة، بقراءة محتوى الشاشة تلقائيًا ومعالجة كل سؤال والتقدم عند اكتماله.
إنشاء فيديو من المعرض: عند طلب تجميع فيديو لقطات مميزة من صور مستوحاة من الببغاء، يقوم النظام بمسح المعرض باستخدام الذاكرة الدلالية للعثور على الصور المتطابقة، ويفتح محرر فيديو CapCut عبر deeplink، ويحدد الملفات على دفعات، ثم ينشئ الفيديو. يشير التقرير إلى أن هذه العملية التي كانت تتطلب سابقًا “بضع دقائق أو أكثر” تُختصر إلى عدد قليل من الخطوات الآلية.
يوسّع X-OmniClaw بنية رائدة بواسطة OpenClaw، وهو إطار عمل لوكلاء مفتوح المصدر وصل إلى أكثر من 373,000 نجمة على GitHub، وتمت دعمه لاحقًا من OpenAI. طوّرت Hermes Agent من Nous Research الفكرة أكثر عبر حلقة تعلم ذاتية التحسين تُراكِم القدرات مع مرور الوقت. عمل المشروعان أساسًا على عتاد الحاسوب المكتبي. يكيّف X-OmniClaw هذه البنية للهواتف الذكية عبر البناء على قاعدة كود HermesApp مفتوحة المصدر وإدخال نموذج المهارات المهيكل لدى OpenClaw بوصفه مصدر إلهام أساسي، ثم تخصيصه لطبيعة الأجهزة المحمولة متعددة الوسائط التي تعمل دائمًا.
يتوفر الكود على GitHub، حيث التزمت Oppo بإصدار جميع الأصول والاستمرار في تحديث المشروع مع تطور النظام.
أخبار ذات صلة
3 عملات بديلة للشراء مقابل عوائد مرتفعة: ترشيحات السوق تستهدف زيادات 3 أضعاف في الأجل القصير
أُطلق وكيل Hermes v0.14.0، ولا يحتاج المشتركون إلى استدعاء مفتاح API لعمليات المنصات الرئيسية
أطلقت ChatGPT ميزة التمويل الشخصي في الولايات المتحدة، لتتيح لك الاطلاع على حساباتك المصرفية الشخصية
X تنشر كود المصدر الأصلي لخوارزمية توصيات “For You”: دروس عملية لإدارة حسابات تويتر عبر استخدام الخوارزمية
تحوّل المحافظ الوكيلة التابعة لـTON روبوتات تيليجرام إلى كيانات إنفاق