Відповідно до Beating, дослідники з Університету Ватерлоо та Браунівського університету представили Planning at Inference — нову рамкову концепцію масштабування під час тестування в роботі, поданій на ICLR 2026. У межах цієї концепції використовується алгоритм Монте-Карло дерев пошуку (MCTS) від AlphaGo для довгих відеогенерацій уперше, що вирішує проблеми семантичного дрейфу та накопичення помилок у традиційних послідовних методах генерації.
У експериментах із відкритим вихідним кодом Nvidia Cosmos-Predict2 Planning at Inference створював послідовні відео тривалістю понад 20 секунд. Система перевершила базові підходи на кшталт Greedy Search і Beam Search за збереженням об’єктів, часовою узгодженістю та відповідністю тексту-відео. Порівняно з провідними галузевими моделями із закритим кодом, відео, згенеровані цим методом, були на 18% довшими за Sora та на 47% довшими за Kling за зіставної візуальної достовірності. Як plug-and-play оптимізація під час інференсу, ця рамка не потребує перенавчання базової моделі.