A equipe Multi-X da Oppo publicou o X-OmniClaw, uma estrutura de agente de IA para Android de código aberto que mantém a lógica central no dispositivo, enquanto chama modelos de linguagem baseados na nuvem apenas para tarefas pesadas de raciocínio. Diferente da maioria dos sistemas de IA para celular que rodam em servidores na nuvem hospedando cópias virtuais do Android, o X-OmniClaw é executado diretamente no dispositivo físico do usuário, mantendo acesso à câmera do telefone, fotos e arquivos locais.
O X-OmniClaw opera por meio de três componentes interconectados que funcionam como um loop contínuo, segundo a documentação técnica da Oppo.
Omni Perception combina feeds da câmera, conteúdo da tela e entrada de voz em um único pipeline. Um modelo visão-linguagem interpreta a cena antes de o agente agir. Por exemplo, se um usuário aponta a câmera para um produto e pergunta o preço, o agente primeiro identifica o que está vendo, depois abre o app de compras relevante e começa a pesquisar sem exigir entrada manual.
Omni Memory diferencia o X-OmniClaw de chatbots de resposta única ao manter contexto entre tarefas, alternâncias de apps e sessões. O agente cria memória semântica de longo prazo a partir da galeria de fotos do usuário, convertendo imagens brutas em anotações estruturadas sobre objetos, cenas e eventos. De acordo com o relatório, “a continuidade em tempo de execução é o que permite que o X-OmniClaw funcione como um agente contínuo do dispositivo, e não como um sistema de resposta única”.
Omni Action cuida da execução ao combinar dados de interface XML com modelos visuais no dispositivo e reconhecimento óptico de caracteres (OCR) para determinar exatamente o que tocar, mesmo em telas cheias de elementos. A estrutura inclui um recurso de behavior cloning que permite que os usuários gravem uma rota de navegação uma vez e depois a reproduzam instantaneamente via atalhos Android deeplink em sessões futuras, contornando a navegação em múltiplas etapas dentro do app.
A Oppo demonstrou várias aplicações práticas do X-OmniClaw:
Identificação de produto e preços: o agente identifica um produto físico pela câmera, abre o Taobao, rola pelos resultados e retorna um resumo de preço sem exigir digitação.
Assistência educacional: um companheiro flutuante na tela ajuda os usuários a resolver exercícios de matemática passo a passo, lendo conteúdo da tela de forma autônoma, processando cada questão e avançando quando termina.
Criação de vídeos a partir da galeria: ao ser solicitado a montar um vídeo de destaques com fotos temáticas de papagaios, o sistema varre a galeria usando memória semântica para encontrar imagens correspondentes, abre o editor de vídeo do CapCut via deeplink, seleciona arquivos em lote e gera o vídeo. O relatório indica que esse processo, que antes exigia “alguns minutos ou mais”, é reduzido a uma série de poucos passos automatizados.
O X-OmniClaw amplia uma arquitetura pioneira pela OpenClaw, uma estrutura de agentes de código aberto que chegou a mais de 373.000 estrelas no GitHub e que eventualmente teve apoio da OpenAI. O Hermes Agent, da Nous Research, avançou o conceito ainda mais com um loop de aprendizado autoaperfeiçoável que acumula capacidades ao longo do tempo. Ambos os projetos rodaram principalmente em hardware de desktop. O X-OmniClaw adapta essa arquitetura para smartphones construindo sobre o código-base HermesApp de código aberto e incorporando o modelo de habilidades estruturado da OpenClaw como inspiração fundamental, e então personalizando-o para a natureza multimodal e sempre ativa dos dispositivos móveis.
O código está disponível no GitHub, com a Oppo se comprometendo a liberar todos os assets e continuar atualizando o projeto à medida que o sistema evolui.
Notícias relacionadas
3 Altcoins para Comprar para Retornos Altos: Escolhas do Mercado Apostam em Ganhos de 3x no Curto Prazo
Hermes Agent v0.14.0 é lançado, assinantes não precisam de API Key para chamar os principais serviços
O recurso de finanças pessoais do ChatGPT foi lançado nos EUA e permite visualizar as contas bancárias pessoais
X publica o código-fonte original do algoritmo de recomendações “For You”: um guia prático de como operar contas no Twitter usando algoritmos
As carteiras agenticas do TON transformam bots do Telegram em entidades de pagamento