بدأ الذكاء الاصطناعي في القيام بالأعمال بنفسه، أنثروبيك تشرح: كيف ينبغي للبشر تقييم أدائه؟

ChainNewsAbmedia

على مدى السنوات العشر الماضية، اعتدنا على قياس تقدم الذكاء الاصطناعي بـ «مدى دقة الإجابة»: نطرح السؤال على النموذج، ونقارن الإجابة مع الإجابة النموذجية، ثم نقيّم النتيجة. لكن هذه المنطق، بدأ يتراجع بسرعة. لأن دور الذكاء الاصطناعي قد تغير — لم يعد مجرد أداة ترد على الأسئلة بشكل سلبي، بل بدأ يصبح «فاعلاً يقوم بالأعمال بنفسه». من التخطيط التلقائي للجدول، واستدعاء الأدوات الخارجية، إلى اتخاذ قرارات متعددة بشكل متسلسل في المهام المعقدة، الجيل الجديد من الذكاء الاصطناعي يتولى تدريجياً سير العمل الذي كان يقوم به البشر في الأصل.

عالم بلا إجابات نموذجية، لماذا الاختبارات لا تنفع

وظهرت أسئلة جديدة: إذا لم يكن الذكاء الاصطناعي مجرد توليد رد واحد، بل إنجاز مهمة كاملة، هل لا زلنا نستطيع تقييمه بمعايير الصواب والخطأ التقليدية؟ عندما تكون المهمة بلا حل واحد، وحتى قد يستخدم الذكاء الاصطناعي طرق «غير متوقعة، ولكنها أكثر فاعلية» لتحقيق الهدف، فإن الطرق التقليدية للتقييم قد تعتبر النجاح فشلاً. هذا ليس مجرد تفصيل تقني، بل هو مشكلة نظامية — طريقة التقييم، هي التي تحدد ما إذا كان الذكاء الاصطناعي سيتعلم حل المشكلات، أم فقط يتعلم كيف يلتزم بالقواعد.

التركيز في التقييم، يتحول من النتائج إلى العملية

لحل هذه المشكلة، بدأ مجتمع أبحاث الذكاء الاصطناعي يتفق على أن تقييم الذكاء الاصطناعي لا يمكن أن يقتصر على النتائج فقط، بل يجب أن ينظر إلى «كيف تم ذلك». في أحدث الأبحاث والخبرات العملية، بدأ التركيز يتجه تدريجياً من إجابة واحدة، إلى عملية العمل كاملة — كيف يفهم الذكاء الاصطناعي المهمة، كيف يقسمها إلى خطوات، متى يستدعي الأدوات، وهل يمكنه تعديل استراتيجيته عند تغير البيئة. بمعنى آخر، لم يعد الذكاء الاصطناعي مجرد طالب يُعطى درجات، بل أصبح أكثر كأنه مساعد ينفذ المهمة، ويجب على نظام التقييم أن يكون قادراً على الحكم على ما إذا كان يتجه فعلاً نحو الهدف الصحيح، وليس فقط التحقق من اتباعه للروتين. هذا التحول يعني أيضاً أن «التقييم» نفسه، أصبح بوابة حاسمة لتمكين الذكاء الاصطناعي من الانتقال الآمن إلى التطبيق العملي.

تقييم الذكاء الاصطناعي هو في الواقع تجربة عملية

في هذا السياق، بدأ فريق البحث، بما في ذلك Anthropic، يرى «تقييم الذكاء الاصطناعي» كمحاكاة كاملة للعملية، وليس مجرد سؤال واحد. عملياً، يقوم الباحثون بتصميم سيناريو مهمة يتطلب قرارات متعددة وتنسيق أدوات، ويطلبون من الذكاء الاصطناعي إتمامها من البداية إلى النهاية، مع تسجيل كامل لكل قرار، وكل إجراء، وكل تعديل في الاستراتيجية. هذه العملية تشبه اختباراً عملياً يُصور بالكامل بالفيديو.

التقييم الحقيقي يحدث بعد انتهاء المهمة

يقوم نظام التقييم بمراجعة سجل العمل الكامل، ليحكم ما إذا كان الذكاء الاصطناعي قد حقق «الهدف الحقيقي»، وليس فقط ما إذا كان قد اتبع الخطوات المقررة. ولتجنب الاعتماد على معيار واحد غير دقيق، غالباً ما يجمع التقييم بين عدة طرق: الأجزاء التي يمكن الحكم عليها بواسطة قواعد برمجية تُترك للأنظمة الآلية، والأجزاء التي تتطلب فهم المعنى والنية الاستراتيجية، يُساعد فيها نموذج آخر، وإذا لزم الأمر، يتم استشارة خبراء بشريين لضبط التقييم. هذا التصميم يهدف إلى الاستجابة لواقع أن حلول الذكاء الاصطناعي بدأت تتفوق على العمليات التي صممها البشر، ويجب أن يكون نظام التقييم قادراً على فهم أن «النجاح لا يأتي بطريقة واحدة فقط».

التقييم ليس مقياساً، بل هو توجيه لسلوك الذكاء الاصطناعي

لكن، تصميم التقييم يحمل مخاطر أيضاً. لأنه في جوهره، يساهم في تدريب الذكاء الاصطناعي على «كيف يجب أن يكون». إذا ركزت معايير التقييم بشكل مفرط على الالتزام بالعملية، قد يتعلم الذكاء الاصطناعي حلولاً طويلة وآمنة، ولكن غير فعالة. وإذا اقتصر التقييم على النتائج فقط، وتجاهل العملية، قد يميل النظام إلى استغلال الثغرات، أو اتخاذ طرق مختصرة، أو حتى تبني استراتيجيات غير مقبولة من قبل البشر. التقييم ليس قياساً محايداً، بل هو إرشاد قيمي ضمني، وإذا انحرف الاتجاه، قد يدفع الذكاء الاصطناعي إلى «درجات عالية، وسلوك خارج عن السيطرة».

التحسين الخاطئ: الذكاء الاصطناعي لا يصبح أغبى، بل يتقن الخطأ أكثر

وهذا هو السبب في أن مجتمع الأبحاث أصبح أكثر حذرًا من مشكلة «التحسين الخاطئ»: عندما يُعزز النموذج بشكل متكرر على أهداف تقييم خاطئة، فإنه لا يضعف، بل يصبح أكثر براعة في إتقان الأخطاء. وغالباً ما لا تظهر هذه الانحرافات على الفور، ولكن تظهر تدريجياً بعد نشر الذكاء الاصطناعي في العالم الحقيقي، وتحمله مسؤوليات أكبر، حيث تظهر العواقب تدريجياً. عندها، لن يكون الأمر مجرد جودة المنتج، بل مسألة أمن، مسؤولية، وثقة يمكن الاعتماد عليها.

لماذا ليست هذه مشكلة المهندسين فقط

بالنسبة للناس العاديين، قد يبدو تقييم الذكاء الاصطناعي كأنه تفاصيل تقنية بين المهندسين، لكنه في الواقع يؤثر على مستقبلنا، وما إذا كنا سنُحكم بواسطة «نظام ذكي، لكنه موجه بشكل خاطئ». عندما يبدأ الذكاء الاصطناعي في ترتيب جداولنا، تصفية المعلومات، تنفيذ المعاملات، وحتى التدخل في القرارات العامة والشخصية، فإن طريقة تقييم أدائه «هل هو جيد أم لا» لن تقتصر على ترتيب النماذج، بل ستصبح أساساً لموثوقيته، وتوقعه، وبناء الثقة. هل سيصبح مساعداً يمكن الاعتماد عليه، أم مجرد نظام غامض يلتزم بالقواعد، وكل ذلك يتحدد من لحظة وضع معايير التقييم. ولهذا، عندما يبدأ الذكاء الاصطناعي في العمل بشكل مستقل، لم يعد الأمر مجرد مسألة تقنية، بل قضية عامة لا مفر من مواجهتها، لكل من سيعيش مع الذكاء الاصطناعي.

هذه المقالة «الذكاء الاصطناعي بدأ يقوم بالأعمال بنفسه»، من شرح من Anthropic، نُشرت في ABMedia.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات