Цього тижня Microsoft Research випустила Fara1.5 — відкриту модель із “вагами” для задач вебпошуку, яка випередила Operator від OpenAI та Gemini 2.5 Computer Use у галузевих бенчмарках. Fara1.5-27B набрала 72% на Online-Mind2Web проти 58,3% у OpenAI Operator і 57,3% у Gemini 2.5 Computer Use. Реліз означає зсув у конкурентному ландшафті агентів для роботи з комп’ютером — систем ШІ, що читають екрани браузера та виконують дії на кшталт кліків, прокручування й введення тексту без потреби у спеціальних плагінах. На відміну від власницького, хмарного Operator від OpenAI (запущеного в січні 2025 року за $200 на місяць, а згодом зупиненого в серпні) та пропозиції Gemini від Google, Fara1.5 є відкритим кодом із публічно доступними вагами. Microsoft досягла цієї продуктивності, переосмисливши весь процес розробки — від генерації даних і цілей тренування до дизайну моделі та оркестрації.
Специфікації моделі та доступність
Fara1.5 має три розміри: 4 млрд, 9 млрд і 27 млрд параметрів — усі побудовані на Qwen 3.5, базовій моделі від Alibaba, яку Microsoft донавчила спеціально для роботи в браузері. Fara1.5-9B, “середній” варіант, набрала 63,4% на Online-Mind2Web — попереду як OpenAI, так і пропозицій Google. Модель із 9 млрд параметрів уже працює в Azure AI Foundry, а варіанти на 4 млрд і 27 млрд надійдуть незабаром.
Результати бенчмарків
Online-Mind2Web, основний бенчмарк, перевіряє, як часто агент ШІ коректно виконує 300 різноманітних задач із реального світу на 136 популярних “живих” вебсайтах, зокрема порівняння продуктів, заповнення форм і бронювання сервісів. Оцінка відображає, скільки задач було завершено правильно на фактичному, змінному інтернеті.
На WebVoyager, другому бенчмарку, що вимірює успішність задач у “живому” вебі, Fara1.5-27B досягла 88,6% — трохи вище за 87,0% у OpenAI Operator і з перевищенням Holo2 від H Company (30 млрд параметрів) на рівні 83,0%.
Відкриті конкуренти набрали нижчі результати: GUI-Owl-1.5 від Alibaba (8 млрд параметрів) дійшла до 48,6%, тоді як MolmoWeb від AI2 набрала 35,3%. Попередня модель Microsoft, Fara-7B, показала 34,1% — тобто Fara1.5-27B майже подвоїла продуктивність свого попередника в порівнянному розмірі. Navigator n1 від Yutori — найкраща пропрієтарна альтернатива — досягнула 64,7%.
Методологія тренування
Microsoft використала FaraGen1.5 для генерації даних тренування, застосовуючи GPT-5.4 — модель OpenAI — як “teacher agent”, щоб продемонструвати, як виконувати задачі в браузері. Ці демонстрації стали навчальними даними для Fara1.5.
Команда також створила шість повністю функціональних реплік реальних вебсайтів, зокрема поштові клієнти, календарі та маркетплейси. Таке синтетичне доменне тренування дало моделі змогу практикувати задачі, що потребують входу в акаунти або незворотних дій, не звертаючись до реальних облікових записів, покращивши результат на “захищених” задачах.
Безпека та контроль користувача
Кожну модель розроблено так, щоб вона зупинялася й запитувала перед виконанням незворотних дій. Fara1.5 працює через MagenticLite — пісочне браузерне середовище, яке фіксує кожну дію та дає користувачам можливість зупинити агента в будь-який момент. За словами Яша Лари, Senior PM Lead у Microsoft Research: “Балансування надійних запобіжників на кшталт Critical Points із безперервними сценаріями користувача — ключ. Наявність інтерфейсу, як-от Magentic-UI від Microsoft Research, життєво важлива, щоб надавати користувачам можливість втручатися, коли це необхідно, водночас допомагаючи уникати втоми від схвалень”.
Подальше розширення
Microsoft заявила, що планує розширити Fara1.5 за межі браузера — на настільні та корпоративні застосунки.