Дослідники застосували алгоритм MCTS від AlphaGo для генерації відео, обійшовши Sora за тривалістю на 18%

Відповідно до Beating, дослідники з Університету Ватерлоо та Браунівського університету представили Planning at Inference — нову рамкову концепцію масштабування під час тестування в роботі, поданій на ICLR 2026. У межах цієї концепції використовується алгоритм Монте-Карло дерев пошуку (MCTS) від AlphaGo для довгих відеогенерацій уперше, що вирішує проблеми семантичного дрейфу та накопичення помилок у традиційних послідовних методах генерації.

У експериментах із відкритим вихідним кодом Nvidia Cosmos-Predict2 Planning at Inference створював послідовні відео тривалістю понад 20 секунд. Система перевершила базові підходи на кшталт Greedy Search і Beam Search за збереженням об’єктів, часовою узгодженістю та відповідністю тексту-відео. Порівняно з провідними галузевими моделями із закритим кодом, відео, згенеровані цим методом, були на 18% довшими за Sora та на 47% довшими за Kling за зіставної візуальної достовірності. Як plug-and-play оптимізація під час інференсу, ця рамка не потребує перенавчання базової моделі.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів