أعلنت Microsoft Research هذا الأسبوع إصدار Fara1.5، وهو نموذج ذكاء اصطناعي مفتوح الأوزان لمهام تصفح الويب يتفوق على OpenAI's Operator وعلى Google's Gemini 2.5 Computer Use في اختبارات معيارية صناعية. سجل Fara1.5-27B نسبة 72% على Online-Mind2Web، مقارنةً بـ 58.3% لـ OpenAI Operator و57.3% لـ Gemini 2.5 Computer Use. يمثل الإطلاق تحولاً في المشهد التنافسي لوكلاء استخدام الحاسوب—وهي أنظمة ذكاء اصطناعي مصممة لقراءة شاشات المتصفح وتنفيذ إجراءات مثل النقر والتمرير والكتابة دون الحاجة إلى إضافات خاصة. بخلاف Operator الخاص والمدعوم بالسحابة من OpenAI (المُطلق في يناير 2025 مقابل 200 دولار شهرياً قبل إيقافه في أغسطس) وعرض Gemini من Google، فإن Fara1.5 مصدره مفتوح مع أوزان تم إصدارها علناً. حققت Microsoft هذا الأداء عبر إعادة التفكير في عملية التطوير الكاملة، بدءاً من توليد البيانات وأهداف التدريب وصولاً إلى تصميم النموذج والتنسيق.
مواصفات النموذج والتوافر
يأتي Fara1.5 بثلاثة أحجام: 4 مليارات و9 مليارات و27 مليار معلمات، وكلها مبنية على Qwen 3.5، وهو نموذج أساسي من Alibaba قامت Microsoft بضبطه بدقة بما يتناسب مع أعمال المتصفح. سجل Fara1.5-9B، وهو النسخة المتوسطة، 63.4% على Online-Mind2Web—متقدماً على كل من عروض OpenAI وGoogle. يعمل نموذج 9 مليارات معلمات حالياً على Azure AI Foundry، بينما تصل النسختان 4 مليارات و27 مليار قريباً.
الأداء في الاختبارات المعيارية
يختبر Online-Mind2Web، وهو الاختبار الأساسي، مدى تكرار قيام وكيل ذكاء اصطناعي بإكمال 300 مهمة متنوعة وواقعية عبر 136 موقعاً حياً شائعاً، بما في ذلك مقارنة المنتجات وملء النماذج وخدمات الحجز. يعكس التقييم المهام التي تم إنجازها بشكل صحيح على الإنترنت الفعلي المتغير.
في WebVoyager، وهو اختبار ثانٍ يقيس نجاح المهام على الويب الحي، حقق Fara1.5-27B نسبة 88.6%، متقدماً على 87.0% لـ OpenAI Operator ومتجاوزاً Holo2 من H Company (30 مليار معلمات) عند 83.0%.
سجل المنافسون مفتوحو المصدر معدلات أقل: وصلت GUI-Owl-1.5 من Alibaba (8 مليارات معلمات) إلى 48.6%، بينما سجل MolmoWeb من AI2 35.3%. حقق نموذج Microsoft السابق، Fara-7B، نسبة 34.1%—ما يعني أن Fara1.5-27B تضاعف تقريباً أداء سلفه عند حجم مماثل. حقق Navigator n1 من Yutori، وهو البديل الحصري الأعلى، نسبة 64.7%.
منهجية التدريب
استخدمت Microsoft FaraGen1.5 لتوليد بيانات التدريب، مع توظيف GPT-5.4—نموذج OpenAI—كـ "وكيل مُعلّم" لعرض كيفية إكمال مهام المتصفح. تحولت هذه العروض إلى بيانات التدريب لـ Fara1.5.
كما أنشأ الفريق ست نسخ مكررة كاملة الوظائف من مواقع حقيقية، بما في ذلك عملاء البريد الإلكتروني والتقويمات والأسواق. أتاح تدريب المجال الاصطناعي للنموذج التدرب على مهام تتطلب تسجيل دخول أو إجراءات لا رجعة فيها دون الوصول إلى حسابات حقيقية، ما حسّن الأداء في مهام "مقيّدة".
السلامة والتحكم للمستخدم
تم تصميم كل نموذج ليقف ويسأل قبل تنفيذ أي إجراءات لا رجعة فيها. يعمل Fara1.5 عبر MagenticLite، وهي بيئة تصفح معزولة تقوم بتسجيل كل إجراء وتسمح للمستخدمين بإيقاف الوكيل في أي لحظة. ووفقاً لـ Yash Lara، كبير مدير المنتج في Microsoft Research، فإن: "الموازنة بين إجراءات الحماية المتينة مثل Critical Points وبين رحلات المستخدم السلسة هي المفتاح. إن وجود واجهة مستخدم، مثل Magentic-UI لدى Microsoft Research، أمر حيوي لإتاحة الفرصة أمام المستخدمين للتدخل عند الضرورة، وفي الوقت نفسه يساعد على تجنب إنهاك الموافقات."
التوسع المستقبلي
ذكرت Microsoft خططاً لتوسيع Fara1.5 خارج نطاق المتصفح ليشمل تطبيقات سطح المكتب وبرمجيات المؤسسات.