Esta semana, a Microsoft Research lançou o Fara1.5, um modelo de IA open-weight para tarefas de navegação na web, que superou o Operator da OpenAI e o Gemini 2.5 Computer Use da Google em benchmarks da indústria. O Fara1.5-27B obteve 72% no Online-Mind2Web, face aos 58,3% do Operator da OpenAI e aos 57,3% do Gemini 2.5 Computer Use. O lançamento representa uma mudança no panorama competitivo dos agentes de utilização do computador — sistemas de IA concebidos para ler ecrãs do browser e executar ações como clicar, percorrer (scroll) e escrever, sem exigir plugins especiais. Ao contrário do Operator proprietário e baseado em cloud da OpenAI (lançado em janeiro de 2025 a 200 dólares por mês, antes de ter sido descontinuado em agosto) e da oferta do Gemini da Google, o Fara1.5 é open-source, com pesos divulgados publicamente. A Microsoft alcançou este desempenho ao repensar todo o processo de desenvolvimento, desde a geração de dados e objetivos de treino até ao desenho do modelo e à orquestração.
Especificações do modelo e disponibilidade
O Fara1.5 vem em três tamanhos: 4 mil milhões, 9 mil milhões e 27 mil milhões de parâmetros, todos construídos sobre o Qwen 3.5, um modelo base da Alibaba que a Microsoft ajustou especificamente para trabalho no browser. O Fara1.5-9B, a variante intermédia, obteve 63,4% no Online-Mind2Web — à frente das ofertas da OpenAI e da Google. O modelo com 9 mil milhões de parâmetros está em funcionamento agora no Azure AI Foundry, enquanto as variantes com 4 mil milhões e 27 mil milhões chegam brevemente.
Desempenho nos benchmarks
O Online-Mind2Web, o benchmark principal, testa com que frequência um agente de IA completa corretamente 300 tarefas diversificadas e do mundo real em 136 websites populares em direto, incluindo comparações de produtos, preenchimento de formulários e serviços de reserva. A pontuação reflete as tarefas concluídas com sucesso na internet real, em constante mudança.
No WebVoyager, um segundo benchmark que mede o sucesso de tarefas na web em direto, o Fara1.5-27B alcançou 88,6%, superando o Operator da OpenAI em 87,0% e ultrapassando o H Company’s Holo2 (com 30 mil milhões de parâmetros) em 83,0%.
Os concorrentes open-source pontuaram mais baixo: o GUI-Owl-1.5 da Alibaba (8 mil milhões de parâmetros) atingiu 48,6%, enquanto o MolmoWeb da AI2 marcou 35,3%. O modelo anterior da Microsoft, o Fara-7B, obteve 34,1% — o que significa que o Fara1.5-27B quase duplicou o desempenho do seu antecessor no mesmo tamanho. O Navigator n1 da Yutori, a principal alternativa proprietária, atingiu 64,7%.
Metodologia de treino
A Microsoft usou o FaraGen1.5 para gerar dados de treino, recorrendo ao GPT-5.4 — o modelo da OpenAI — como “teacher agent” para demonstrar como completar tarefas no browser. Estas demonstrações tornaram-se dados de treino para o Fara1.5.
A equipa também criou seis réplicas totalmente funcionais de websites reais, incluindo clientes de e-mail, calendários e marketplaces. Este treino em domínio sintético permitiu ao modelo praticar tarefas que exigem logins ou ações irreversíveis sem aceder a contas reais, melhorando o desempenho em tarefas “gated”.
Segurança e controlo do utilizador
Todos os modelos são concebidos para parar e pedir confirmação antes de executar ações irreversíveis. O Fara1.5 corre através do MagenticLite, um ambiente de browser em sandbox que regista todas as ações e permite aos utilizadores parar o agente em qualquer momento. Segundo Yash Lara, Senior PM Lead na Microsoft Research, “Equilibrar salvaguardas robustas, como Critical Points, com percursos de utilizador sem fricção, é fundamental. Ter uma UI, como o Magentic-UI da Microsoft Research, é vital para dar aos utilizadores oportunidades de intervir quando necessário, ao mesmo tempo que ajuda a evitar fadiga de aprovação.”
Expansão futura
A Microsoft afirmou que tem planos para expandir o Fara1.5 para além do browser, passando para aplicações de desktop e de software empresarial.