Zytron GE-Sim 2.0: gerar o mundo com o World Model, e o rival imbatível Yu Tech impulsiona o robô humanoide para a autoevolução

A Inteligência Incorporada (Embodied AI) está a atravessar uma mudança decisiva. Recentemente, o robô chinês da empresa Zhiren lançou o Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), tentando avançar o World Model (modelo do mundo) de ser uma ferramenta apenas para compreender o ambiente, para um simulador do mundo (World Simulator) em que se possa executar, treinar e otimizar diretamente robôs.

Se ainda não perceberes o quão crítico isto é, vale a pena começar por analisar as fragilidades da arquitetura LLM: do ponto de vista do treino, os LLM existentes apenas predizem o contexto com base em enormes conjuntos de dados textuais; conseguem saber que palavras como “maçã cai” tendem a aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

É por isso que cientistas como Yang LeCun, Li Fei-Fei e outros se têm dedicado ao setor do World Model: quando a IA passa a ter capacidade de compreender ambientes 3D e de prever a física, esta tecnologia tornar-se-á o “cérebro digital” para robôs autónomos, condução autónoma e fabrico inteligente — ou seja, o “AI físico” (Physical AI). Assim, a linha do World Model defende que robôs serão o veículo absolutamente crucial. Hoje, a entrada do fabricante de robôs humanoides Unitree Robot simboliza o avanço pioneiro da China numa “inversão” vinda do hardware.

Anteriormente, o presidente da TSMC, Wei Zhejia, tinha afirmado: “Se olhares para a China continental a brincar com robôs, a saltar para cá e para lá, a dar saltos e pulos. Isso não serve para nada, é só bonito para ver.” Ele apontou que o essencial é fazer com que o “cérebro” do robô funcione; quem o faz são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas, mas 95% dos cérebros são fabricados pela TSMC. O gargalo de desenvolvimento do GE-Sim 2.0 ainda está em aberto, fortemente associado ao desenvolvimento de modelos na China.

A linha do World Model defende que robôs são fundamentais

Os LLMs dominantes atualmente dependem de enormes conjuntos de dados e de relações estatísticas para compreender o contexto e prever a próxima palavra. Podem saber que as palavras “maçã cai” costumam aparecer juntas, mas não compreendem verdadeiramente as relações causais da gravidade ou do mundo físico.

Este tipo de padrão tem um desempenho excelente em geração de texto, assistência à programação ou tarefas de perguntas e respostas, mas ainda existem limitações fundamentais em cenários que exigem compreender a estrutura do mundo real, raciocinar relações causais e fazer planeamento de longo prazo. O problema ainda maior é que as fontes de dados estão gradualmente a esgotar-se. O treino dos LLMs depende fortemente de dados humanos de alta qualidade, e nos últimos anos a indústria tem começado a alertar que os dados textuais humanos utilizáveis poderão esgotar-se nos próximos anos. Tal como em reprodução entre parentes próximos que pode herdar defeitos, acabando por fazer o modelo se desviar gradualmente da realidade e ocorrer uma degradação do desempenho.

(Análise aprofundada: há falhas nos LLM? Por que Yang LeCun aposta na rota do World Model com a AMI)

É também por isso que, nos últimos anos, duas figuras de peso na comunidade de IA — Yang LeCun e Fei-Fei Li, conhecida como “a madrinha da IA” — escolheram apostar na nova geração de arquitetura de IA conhecida como World Model (modelo do mundo).

Na altura, o autor deste artigo referiu: “Vendo mais além, quando a IA tiver capacidade de compreender ambientes 3D e prever a física, esta tecnologia será o cérebro digital para robôs autónomos, condução autónoma e fabrico inteligente, ou seja, o ‘AI físico’ (Physical AI). Por conseguinte, a rota do World Model defende que robôs serão o veículo extremamente crucial. Hoje, quando fabricantes de robôs humanoides entram em cena — com a Zhiren Robot — isso simboliza o pioneirismo da China na inversão pelo hardware.”

Anteriormente, o presidente da TSMC, Wei Zhejia, ao falar sobre o desenvolvimento de robôs e semicondutores, foi direto: “Se olhares para a China continental a andar sempre a fazer robôs a saltar para cá e para lá, a dar pulos e a fazer coisas. Isso não serve, é só para parecer bonito.” Ele indicou que a chave é permitir que o “cérebro” do robô funcione; quanto a quem o faz, são a Nvidia (Nvidia), a AMD (AMD) e uma série de empresas americanas — mas 95% dos cérebros são fabricados pela TSMC.

(Wei Zhejia da TSMC ironiza: robôs chineses a saltar e a pular — é só bonito, não serve para nada! A chave continua a vir da Nvidia)

Evolução do World Model: de compreender o mundo a aprender dentro do mundo

Nos últimos anos, o World Model tem sido visto como uma tecnologia-chave para a IA compreender a realidade. Através de imagens, linguagem e dados de sensores, o modelo consegue prever mudanças no ambiente, dotando os robôs de capacidades básicas de tomada de decisão.

Mas a principal inovação do GE-Sim 2.0 está em não ser apenas compreender o mundo; é fazer com que sistemas de aprendizagem e ação se incorporem diretamente no “mundo gerado pelo modelo”. A ação (Action) é integrada como uma variável central, passando da previsão do estado tradicional para um ciclo completo:

State

Action

State Evolution

Isto significa que o robô deixa de ser apenas um observador e respondente, passando a poder fazer tentativas ativas no ambiente simulado, otimizar de forma autónoma e aprender continuamente. Esta mudança faz com que o World Model evolua de “modelo de cognição” para “infraestrutura de treino”.

GE-Sim 2.0: fazer os robôs “evoluir” em mundos virtuais

O GE-Sim 2.0 é definido como um conjunto de “simuladores de mundo incorporado”, tendo como objetivo central resolver três grandes gargalos do treino na realidade: custos demasiado altos, falta de dados e dificuldade em escalar. Ao gerar ambientes com modelos, o sistema pode treinar robôs em grande escala sem depender do mundo real.

Em termos técnicos, o GE-Sim 2.0 integra três capacidades-chave. Em primeiro lugar, “geração de imagens orientada por ações”: o modelo consegue gerar os futuros quadros correspondentes com base nas ações do robô, mantendo consistência entre múltiplas perspetivas, incluindo a perspetiva da cabeça e as perspetivas da operação com a mão esquerda e a mão direita.

Em segundo lugar, a modelação de proprioceção (proprioception): não só simula imagens externas, como também consegue prever as juntas e estados de movimento do próprio robô, tornando a decisão mais próxima do mundo físico real.

Em terceiro lugar, “avaliação automática de tarefas”: através de um reward model (modelo de recompensa) embutido, o sistema consegue determinar automaticamente se a tarefa foi concluída — por exemplo, “colocar o objeto azul dentro da caixa vermelha” — e fornecer feedback, que é diretamente usado para reforço de aprendizagem. Isto permite que o robô complete um ciclo fechado no ambiente simulado:

O GE-Sim 2.0 já consegue gerar vídeo de forma estável em “nível de minutos”

Em comparação com modelos anteriores que apenas conseguiam gerar segmentos de curta duração, o GE-Sim 2.0 já consegue gerar vídeos estáveis em “nível de minutos”, suportando simulações de tarefas durante longos períodos. Ao mesmo tempo, através de treino com dados reais em grande escala (dados de operação remota, deployment e interação), o modelo adquire uma capacidade de generalização mais forte entre diferentes cenários e tarefas. Isto é especialmente crucial para robôs humanoides: porque a operação no mundo real é altamente variável e não é possível confiar apenas em treino com cenários fixos.

O aparecimento do World Simulator significa que os robôs podem “treinar sem limites” no mundo virtual; isso trará duas mudanças estruturais: primeiro, os custos de treino diminuem drasticamente. Segundo, a velocidade da iteração de capacidades aumenta a um ritmo exponencial.

Zhiren Robot: nova força no setor de robôs humanoides da China

A Zhiren Robot foi fundada em 2023 por Peng Zhihui, o “talento jovem” da Huawei, e foca-se na área de inteligência incorporada que combina IA e robótica.

Os principais produtos da empresa incluem:

robôs humanoides da série “Yuan Zheng”

sistema de robôs “Ling Xi”

grande modelo geral GO-1

Neste momento, já concluiu várias rondas de financiamento e recebeu investimento de instituições como Sequoia China e Hillhouse Capital, sendo considerada uma das participantes importantes no setor de robôs humanoides na China, num quadro concorrencial com a Unitree Technology.

Este artigo Zhiren GE-Sim 2.0: usar o World Model para gerar mundos, o adversário da Unitree empurra robôs humanoides para a autoevolução apareceu pela primeira vez em Lianxin ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Sonhos com o Claude da Anthropic: os agentes auto-organizam memórias entre tarefas, eliminam duplicados e contradições

A Anthropic, na conferência Code with Claude, anunciou os Dreams, permitindo que os Claude Managed Agents organizem automaticamente memórias entre múltiplas sessões de conversa, eliminem duplicados e contradições, e atualizem entradas desatualizadas, produzindo uma base de memórias finalizável e auditável; o limite de entrada é de 100 sessões e 4.096 caracteres, com execução assíncrona, concluída entre alguns minutos e algumas dezenas de minutos, e com suporte para observação por streaming. A pré-visualização da investigação requer candidatura; por agora, apenas suporta claude-opus-4-7 e claude-sonnet-4-6, com data de lançamento oficial ainda por definir.

ChainNewsAbmedia2h atrás

A Anthropic negocia com a SpaceX a capacidade de computação: garante Colossus 1 com 22 mil GPUs, e o Claude removeu os limites

A Anthropic anunciou uma parceria de capacidade computacional com a SpaceX para o centro de dados Colossus 1, com planos para utilizar mais de 220 mil GPUs Nvidia e mais de 300MW de capacidade. A implementação deverá ficar concluída no prazo de um mês para ser disponibilizada ao uso da Anthropic, melhorando o desempenho e a experiência do Claude e do Code. Em paralelo, foram alargados os limites de utilização a cada 5 horas para Pro/Max/Team/Enterprise, foi removido o limite durante os picos e foi aumentada a taxa da API do Opus. A expansão das infraestruturas na Ásia e na Europa ocorre em simultâneo, e, no futuro, há ainda intenções para “computação de IA em órbita”, entre outras, embora ainda não haja contratos fechados.

ChainNewsAbmedia2h atrás

Engenheiro da Coinbase: os agentes de IA poderiam perturbar o modelo de publicidade na Web

Erik Reppel, engenheiro da Coinbase, afirmou que os agentes de inteligência artificial poderiam minar fundamentalmente o modelo de negócio da internet, dependente da publicidade. Segundo Reppel, a economia da Web depende fortemente das receitas de publicidade geradas a partir de utilizadores humanos, mas os agentes de IA contornam esse sistema

CryptoFrontier3h atrás

A Anthropic duplica os limites de taxa do Claude Code após garantir uma capacidade de 300 MW num acordo com a SpaceX

Segundo a Odaily, a Anthropic assinou um acordo com a SpaceX para aceder à capacidade total de computação do centro de dados Colossus 1, garantindo mais de 300 megawatts de nova capacidade e mais de 220.000 GPUs NVIDIA no prazo de um mês. A partir do momento, os limites de taxa de cinco horas do Claude Code para Pro,

GateNews3h atrás

A OpenAI publica o protocolo de rede do supercomputador MRC! Em parceria com a Nvidia, a AMD e a Microsoft para criar a infraestrutura base do Stargate

A OpenAI anunciou a MRC, uma proposta de protocolo para uma rede de supercomputação de IA, em colaboração com a AMD, a Microsoft, a NVIDIA e outras entidades, e disponibilizou-a em código aberto na OCP. A MRC divide os dados e envia-os por múltiplos caminhos em simultâneo, evita obstáculos a nível de microssegundos, reduz a congestão e mantém a sincronização da GPU, resolvendo os gargalos de transferência em grandes clusters de treino. As bases já implantadas, como o Stargate em Abilene, no Texas, têm interfaces de 800Gb/s e já foram integradas em treinos reais.

ChainNewsAbmedia4h atrás
Comentar
0/400
Nenhum comentário