قياس السياسة لستة نماذج ذكاء اصطناعي رئيسية: Grok يميل لليمين بقوة 97%، وGemini الأقرب للحياد

أصدرت منصة Trakkr لدراسات التحيز في الذكاء الاصطناعي تقريراً في يونيو، اختبرت فيه ستة نماذج رئيسية للذكاء الاصطناعي (ChatGPT وClaude وGemini وGrok وLlama وDeepSeek) بشأن قضايا سياسية واجتماعية مثيرة للجدل. وأظهرت النتائج أن أربعة من النماذج الستة تميل إلى اليسار على المحور الاقتصادي، بينما كان Grok هو النموذج الوحيد الذي يقع في النطاق اليميني، وكان Gemini هو الأقرب إلى الحياد الحقيقي بين النماذج الستة.

تصميم قياس Trakkr: 12 قضية، تعطيل البحث عبر الإنترنت، أرشفة مفتوحة المصدر

يطرح إطار قياس Trakkr نفس 12 قضية على النماذج الستة، وتشمل فئتين رئيسيتين: القضايا التقليدية التي تفصل بين اليسار واليمين (إضفاء الشرعية على المخدرات، أولوية التعددية الثقافية، التخلص التدريجي من الوقود الأحفوري، ضريبة الثروة، الحصص التعددية)، وقضايا الجدل في حوكمة التكنولوجيا (حذف المعلومات الخاطئة، تجريم خطاب الكراهية، الأبواب الخلفية للتشفير، الهوية الرقمية الوطنية).

أثناء الاختبار، تم تعطيل ميزة البحث عبر الإنترنت في جميع النماذج لقياس ميل التدريب الأساسي للنموذج نفسه، وليس المعلومات الخارجية التي تم الحصول عليها في الوقت الفعلي. تُعرض النتائج على خريطة إحداثيات ثنائية المحور، حيث يمثل المحور الأفقي الاقتصاد (من اليسار إلى اليمين) والمحور الرأسي المجتمع (من الحرية إلى الاستبداد). تستند إحداثيات كل نموذج إلى قاعدة بيانات مسح الخبراء للشخصيات السياسية CHES 2024 وV-Dem.

الأرقام الكاملة للقياس للنماذج الستة (درجة المحور الاقتصادي، الاستقرار، شدة الانحياز)

AI模型政治測量 (المصدر: Trakkr)

Grok: +0.21 (الوحيد المائل لليمين)، استقرار 57%، شدة انحياز 97%، الأقرب إلى إيمانويل ماكرون في فرنسا

ChatGPT: -0.29 (أعلى ميل لليسار)، استقرار 82%، شدة انحياز 64%، الأقرب إلى حزب الخضر الألماني

DeepSeek: -0.03، استقرار 67% (الأدنى بين النماذج الستة)، شدة انحياز 86%، الأقرب إلى حزب العمال الأسترالي

Llama: -0.06، استقرار 88%، شدة انحياز 81%، الأقرب إلى حزب العمال النيوزيلندي

Claude: -0.06، استقرار 82%، شدة انحياز 19% (الأدنى بين النماذج الستة)، الأقرب إلى حزب العمال النيوزيلندي

Gemini: 0.00، استقرار 98% (الأعلى بين النماذج الستة)، شدة انحياز 11%، الأقرب إلى حزب العمال الأسترالي

الفجوة بين الموقف المعلن ذاتياً لكل نموذج والموقع المُقاس فعلياً بالأرقام

تنص قواعد قياس Trakkr على أن أي إجابة مراوغة عند مواجهة أسئلة التحديد الذاتي للموقف السياسي تُحتسب كـ"إعلان حياد". وبناءً على هذا المعيار، تكون الفجوات للنماذج الستة كما يلي:

· Grok: القيمة المُقاسة فعلياً تزيد بمقدار 0.36 نحو اليمين عن موقفه المُعلن؛

· Claude: القيمة المُقاسة فعلياً تزيد بمقدار 0.34 نحو اليسار عن موقفه المُعلن؛

· ChatGPT وLlama: كلاهما أعلنا الحياد، لكن القياس الفعلي وضعهما في موضع يساري؛

· DeepSeek: أعلن الحياد، والفارق بين إحداثياته الفعلية والمركز هو 0.01؛

· Gemini: أعلن الحياد، ودرجة القياس الفعلي هي 0.00، والفارق صفر.

الأسئلة الشائعة

هل يمكن التحقق من نتائج قياس Trakkr بشكل مستقل من قبل طرف ثالث؟

صرحت Trakkr أن بنك الأسئلة الخاص بها متاح للتحميل كمصدر مفتوح، وجميع إجابات النماذج مؤرشفة بشكل دائم ومتاحة للجمهور، ويمكن لأي طرف ثالث إدخال نفس الأسئلة وتشغيل عملية التقييم وإعادة حساب النتائج. تعتبر Trakkr هذا دليلاً أساسياً على قابلية تكرار منهجيتها البحثية.

ما الذي يقيسه مؤشرا شدة الانحياز والاستقرار على التوالي؟

تقيس شدة الانحياز النسبة المئوية لأسئلة الاختبار التي يظهر فيها النموذج ميلاً ثابتاً وقابلاً للقياس؛ ويقيس الاستقرار درجة اتساق الإجابات عند تكرار نفس السؤال. شدة انحياز Grok البالغة 97% تعني أنه يظهر ميلاً يمينياً ثابتاً في جميع الأسئلة تقريباً؛ واستقرار DeepSeek البالغ 67% فقط يعني أنه عند طرح نفس السؤال مرتين قد نحصل على إجابتين متعارضتين في الاتجاه.

ما الذي يوضحه هذا التقرير للمستخدمين الذين يستخدمون نماذج الذكاء الاصطناعي للحصول على معلومات سياسية أو إخبارية؟

لم يقدم تقرير Trakkr توصيات معيارية في هذا الشأن، بل أوضح فقط أن نتائج القياس تُظهر أن عملية تدريب نماذج الذكاء الاصطناعي تترك بالفعل ميولاً في القضايا السياسية، بغض النظر عن الموقف الذي يعلنه النموذج. يوفر الموقع الرسمي لـ Trakkr تحليلاً كاملاً وأدوات تفاعلية تتيح للمستخدمين تحديد مواقعهم بأنفسهم، لمقارنتها بأنفسهم.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات