Pesquisadores aplicam o algoritmo MCTS do AlphaGo à geração de vídeo, superando a Sora em 18% em duração

De acordo com Beating, pesquisadores da University of Waterloo e da Brown University apresentaram o Planning at Inference, um novo framework de escalonamento em tempo de inferência em um artigo submetido à ICLR 2026. A estrutura aplica o algoritmo de Monte Carlo Tree Search (MCTS) do AlphaGo à geração de vídeos de longa duração pela primeira vez, abordando problemas de deriva semântica e acúmulo de erros em métodos tradicionais de geração sequencial.

Em experimentos usando o modelo Cosmos-Predict2, de código aberto, da Nvidia, o Planning at Inference gerou vídeos coerentes com mais de 20 segundos. O sistema superou métodos de base como Greedy Search e Beam Search em persistência de objetos, consistência temporal e alinhamento texto-vídeo. Em comparação com modelos fechados líderes do setor, os vídeos gerados por este método foram 18% mais longos do que o Sora e 47% mais longos do que o Kling, com fidelidade visual comparável. Como otimização de inferência plug-and-play, a estrutura não exige retrain do modelo subjacente.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários