الباحثون يطبقون خوارزمية MCTS الخاصة بـAlphaGo على توليد الفيديو، متجاوزين Sora بنسبة 18% في الطول

وفقاً لبيتينغ، قدّم باحثون من جامعة واترلو وجامعة براون "Planning at Inference"، وهو إطار جديد لتوسيع وقت الاختبار (test-time scaling) في ورقة مُقدمة إلى ICLR 2026. يطبّق الإطار خوارزمية مونت كارلو لشجرة البحث (MCTS) الخاصة بـ AlphaGo لأول مرة على توليد الفيديوهات الطويلة، لمعالجة مشكلات الانحراف الدلالي وتراكم الأخطاء التي تواجهها طرق التوليد التسلسلي التقليدية.

في التجارب باستخدام نموذج Cosmos-Predict2 مفتوح المصدر من Nvidia، أنتج Planning at Inference فيديوهات متماسكة تتجاوز 20 ثانية. وتفوّق النظام على أساليب الأساس مثل Greedy Search وBeam Search من حيث استمرار الأجسام، والاتساق الزمني، ومحاذاة النص-الفيديو. وبالمقارنة مع نماذج رائدة مغلقة المصدر في الصناعة، كانت الفيديوهات التي تولّدها هذه الطريقة أطول بنسبة 18% من Sora وأطول بنسبة 47% من Kling، مع توافر جودة بصرية مماثلة. وكحل تحسين للاستدلال يعمل بوصفه إضافة جاهزة (plug-and-play)، لا يتطلب الإطار إعادة تدريب للنموذج الأساسي.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات