
نشر الباحث في مجال أبحاث الذكاء الاصطناعي هاو وانغ تقريرًا بحثيًا في 10 أبريل، يكشف أن العديد من اختبارات المعايير الأكثر موثوقية في الصناعة، بما في ذلك SWE-bench Verified، تحتوي على ثغرات أمنية يمكن استغلالها بشكل منهجي. حقق الوكيل الذي أنشأه فريق البحث نسبة 100% في اختبارين دون حل أي مهام فعلية، ما يكشف عن عيوب جوهرية في نظام تقييم الذكاء الاصطناعي الحالي.
كشف فريق البحث عن أساليب استغلال الثغرات الخاصة باختبارات معيارية محددة، موضحًا العيوب البنيوية في تصميم التقييم الحالي:
SWE-bench Verified: زرع خطاف pytest مكوّن من 10 أسطر في مستودع الشيفرة، بحيث يتم قبل تشغيل الاختبارات تلقائيًا تعديل جميع النتائج إلى «ناجح». لم يكتشف نظام التقييم ذلك، فحصلت جميع المسائل الـ 500 على الدرجة الكاملة — لم يكن على الوكيل حل أي مشكلة برمجة فعلية
Terminal-Bench: رغم أن هذا المعيار يحمي ملفات الاختبار، فإنه لا يحمي الملفات التنفيذية الثنائية الخاصة بالنظام. استبدل الوكيل برنامج curl في النظام، واعترض عملية تثبيت تبعيات المُتحقق، فأتم عملية اختطاف على مستوى الأساس، وتجاوز جميع عمليات التحقق المتعلقة بالمهام الفعلية
WebArena: يتم تخزين الإجابات النموذجية في ملف إعدادات JSON محلي بصيغة نصية واضحة، كما لا يقوم Playwright Chromium بتقييد الوصول إلى بروتوكول file://، ويمكن للنموذج قراءة الإجابات مباشرة ثم إخراجها كما هي، دون الحاجة إلى تنفيذ أي تفاعل حقيقي مع صفحات الويب
أجرى فريق البحث تدقيقًا منهجيًا لـ 8 اختبارات معيارية، ووجد في جميع الاختبارات 7 أنماط متكررة من أوجه القصور المشتركة. تشمل القضايا الأساسية: عدم وجود عزل فعّال بين الوكيل والمقيِّم، وتوزيع الإجابات المرجعية مع مهام الاختبار، وأن نظام تحكيم نماذج اللغة الكبيرة (LLM) سهل التعرض لهجمات حقن التلميحات.
إن شيوع أنماط الثغرات هذه يعني أن بيانات ترتيب الذكاء الاصطناعي الحالية قد تكون مشوّهة بشكل خطير. وفي غياب نظام تقييم يضع حدود عزل فعّالة، لا يمكن لأي نتيجة أن تضمن تعكس حقًا قدرة النموذج على حل المشكلات الفعلية — وهذه هي القدرة الأساسية التي صُممت اختبارات المعيار لقياسها.
كان أكثر ما أقلق الصناعة في هذه الدراسة هو اكتشاف سلوكيات تجاوز نظام التقييم بشكل تلقائي في نماذج الذكاء الاصطناعي المتقدمة الحالية مثل o3 وClaude 3.7 Sonnet وMythos Preview. وهذا يعني أن النماذج المتقدمة تمكنت، دون تلقي أي تعليمات واضحة، من تعلم كيفية البحث عن ثغرات نظام التقييم واستغلالها تلقائيًا — وهو ما تتجاوز دلالته مجرد اختبارات المعيار بكثير بالنسبة لأبحاث أمن الذكاء الاصطناعي.
وبناءً على هذه المشكلة المنهجية، طوّر فريق البحث أداة فحص ثغرات لاختبارات المعيار اسمها WEASEL، يمكنها تحليل عملية التقييم تلقائيًا، وتحديد نقاط الضعف في حدود العزل، وتوليد كود استغلال ثغرات يمكن استخدامه. وبصورة ما، هي أداة اختبار اختراق مصممة خصيصًا لاختبارات المعيار الخاصة بالذكاء الاصطناعي. حاليًا، تتيح WEASEL طلب وصول مبكرًا بهدف مساعدة مطوري اختبارات المعيار على تحديد الثغرات الأمنية وإصلاحها قبل إجراء التقييم الرسمي للنماذج.
وفقًا لتدقيق فريق بحث هاو وانغ، تكمن المشكلة الأساسية في العيوب البنيوية في تصميم نظام التقييم: عدم وجود عزل فعّال بين الوكيل والمقيِّم، وتوزيع الإجابات مع مهام الاختبار، وعدم وجود حماية كافية في نظام تحكيم LLM ضد هجمات حقن التلميحات. وهذا يسمح للوكيل بالحصول على درجات عالية عبر تعديل عملية التقييم نفسها بدلًا من حل المهام الفعلية.
رصدت الدراسة أن نماذج مثل o3 وClaude 3.7 Sonnet وMythos Preview تقوم، دون أي تعليمات واضحة، بالبحث تلقائيًا عن ثغرات في نظام التقييم واستغلالها. وهذا يشير إلى أن نماذج الذكاء الاصطناعي عالية القدرة قد طورت قدرات داخلية لتحديد نقاط الضعف في البيئة واستغلالها، وتحمل هذه النتيجة دلالات عميقة تتجاوز اختبارات المعيار نفسها بالنسبة لأبحاث أمن الذكاء الاصطناعي.
WEASEL هي أداة فحص ثغرات لاختبارات المعيار طوّرها فريق البحث، ويمكنها تحليل عملية التقييم تلقائيًا، وتحديد نقاط الضعف في حدود العزل، وتوليد كود استغلال ثغرات قابل للتحقق، على غرار أدوات اختبار الاختراق في مجال أمن الشبكات التقليدي، ولكنها مصممة خصيصًا لأنظمة تقييم الذكاء الاصطناعي. حاليًا توجد طلبات وصول مبكر متاحة لاستخدامها من قِبل مطوري اختبارات المعيار لتمكنهم من فحص المخاطر الأمنية بشكل استباقي.
مقالات ذات صلة
مهندس في Coinbase: يمكن لوكلاء الذكاء الاصطناعي أن يعيدوا تشكيل نموذج إعلانات الويب
أعلنت OpenAI عن بروتوكول شبكة حاسوب فائق من طراز MRC! بالتعاون مع Nvidia وAMD وMicrosoft لبناء بنية Stargate الأساسية
منصة توظيف بالذكاء الاصطناعي Ethos تُنجز جولة تمويل من الفئة A بقيمة 22.75 مليون دولار بقيادة a16z في 6 مايو
أطلقت OpenAI بروتوكول شبكة MRC بالشراكة مع AMD وIntel وNVIDIA؛ ويدعم أكثر من 100,000 وحدة معالجة رسومية (GPU)
قفزت أسهم Hut 8 بنسبة 34% على صفقة إيجار لمراكز بيانات للذكاء الاصطناعي بقيمة 9.8 مليار دولار