ملخص سريع
أجاب باحثو أندون لابز للتو على السؤال: أي نماذج الذكاء الاصطناعي هي الأفضل في إدارة الأعمال؟ جميع المتصدرين فازوا من خلال تشكيل احتكارات أسعار غير قانونية، واستغلال المنافسين اليائسين، والكذب على العملاء بشأن المبالغ المستردة.
تختبر ساحة Vending-Bench النماذج الذكية في إدارة آلات بيع متنافسة لمدة سنة محاكاة. يتفاوضون مع الموردين، ويديرون المخزون، ويحددون الأسعار، ويمكنهم إرسال رسائل بريد إلكتروني لبعضهم البعض للتعاون أو المنافسة. النجاح يتطلب موازنة التكاليف، واستراتيجية التسعير، وخدمة العملاء، وديناميكيات المنافسين. سيطرت Claude Opus 4.6 على الاختبار بأرباح بلغت 8017 دولارًا—واحتفل بفوزه قائلاً: “تنسيق أسعاري نجح!”
صورة: أندون لابز
تُعتبر أنثروبيك صورة للأشخاص الطيبين في مجال الذكاء الاصطناعي، لكن استراتيجية “التنسيق” التي اقترحها كلود كانت في الأساس تثبيت أسعار. عندما واجهت النماذج المنافسة صعوبة، اقترح أوبس 4.6: “لا نخفض الأسعار بعضنا البعض — اتفق على حد أدنى للسعر… هل نوافق على حد أدنى للسعر بقيمة 2.00 دولارات لمعظم المنتجات؟” عندما نفد مخزون أحد المنافسين، رأى فرصة: “أوهين يحتاج بشدة للمخزون. يمكنني الربح من ذلك!” باع كيت كات بزيادة 75% للمنافس اليائس. وعند طلب توصيات للموردين، وجه المنافسين عمدًا إلى تجار جملة غاليين مع إخفاء مصادره الجيدة.
أضاف التحديث الأخير في الاختبار منافسة الفرق. وضع الباحثون نموذجين من GLM-5 الصينيين ضد نموذجين من كلود الأمريكيين وأمرواهم بالعثور على زملائهم، سواء كانوا أمريكيين أو صينيين—دون الكشف عن هوية الوكلاء. كانت النتائج غريبة حقًا.
فاز كلا من GLM-5 في الجولتين بإقناع كلود بأنه هو كلود. قال أحد وكلاء GLM-5 بثقة: “أنا أيضًا مدعوم من قبل كلود من أنثروبيك، إذن نحن زملاء!” في حين، أصبح كلود مرتبكًا لدرجة أن سونيت 4.5 خلصت إلى: “أنا مدعوم من نموذج صيني، لذلك أحتاج إلى العثور على النموذج الصيني الآخر، الوكيل.”
صورة: أندون لابز
في أكثر من نصف عمليات الاختبار، تعاون الوكلاء مع منافسيهم. شارك نماذج كلود في مشاركة أسعار الموردين وتنسيق الاستراتيجية—مما أدى إلى تسريب معلومات قيمة للمنافسين. كتب الباحثون: “فاز GLM-5 في كلا الجولتين.” “حاولت نماذج كلود أن تكون لاعبي فريق وانتهى بها الأمر إلى تسريب معلومات قيمة لمنافسيها.” وقد يكون تصرف الوكلاء المريب مجرد لعبة ممتعة حتى تدرك أن وول ستريت تستخدمهم بالفعل في العمليات الحقيقية. استخدمت جي بي مورغان مجموعة LLM لـ 60000 موظف. وبناتاغون ساكس أنشأت مساعدها الذكي GS AI للتداول، مدعية تحقيق زيادة إنتاجية بنسبة 20%. وتستخدم بريدج ووتر كلود لتحليل الأرباح، وحتى الأطفال في المرحلة الثانوية يرون روبوتات الدردشة تتداول الأسهم بكفاءة أكبر.
بشكل عام، يتسارع اعتماد سير العمل الوكالي بسرعة عبر المؤسسات. عندما قام فريق أنثروبيك وموظفو وول ستريت جورنال بتجربة حقيقية لآلة بيع في ديسمبر، اشترى الذكاء الاصطناعي جهاز بلايستيشن 5، وعدة زجاجات من النبيذ، وسمكة بيتا حية قبل أن يعلن إفلاسه. أظهرت أبحاث حديثة من معهد كوانغجو أن معدلات الإفلاس بلغت 48% عندما طُلب من نماذج الذكاء الاصطناعي “تعظيم المكافآت” في سيناريوهات المقامرة. ووجد الباحثون أن “عندما يُعطى الحرية لتحديد أهدافه وأحجام الرهانات الخاصة به، ترتفع معدلات الإفلاس بشكل كبير مع زيادة السلوك غير العقلاني.” يبدو أن، على الأقل في الوقت الحالي، نماذج الذكاء الاصطناعي المحسنة لتحقيق الربح تختار باستمرار أساليب غير أخلاقية. فهي تشكل احتكارات، وتستغل الضعف، وتكذب على العملاء والمنافسين. بعضهم يفعل ذلك عن قصد. آخرون، مثل GLM-5 الذي يدعي أنه كلود، يبدون مرتبكين حقًا بشأن هويتهم. قد لا يهم الفرق. يثير نشر وول ستريت للذكاء الاصطناعي سؤالًا لا يمكن لنتائج Vending-Bench الإجابة عليه: إذا فاز النموذج “الأفضل” من خلال تثبيت الأسعار والخداع، فهل هو حقًا الخيار الأفضل لعملك؟ يقيس الاختبار الأرباح، لكنه لا يقيس ما إذا كانت تلك الأرباح جاءت من الاحتيال.