Microsoft Research pekan ini merilis Fara1.5, model AI open-weight untuk tugas penjelajahan web yang mengungguli Operator milik OpenAI dan Gemini 2.5 Computer Use milik Google dalam benchmark industri. Fara1.5-27B mencetak 72% pada Online-Mind2Web, dibandingkan 58,3% milik OpenAI Operator dan 57,3% milik Gemini 2.5 Computer Use. Rilis ini menandai pergeseran lanskap kompetitif agen computer use—sistem AI yang dirancang untuk membaca layar browser dan melakukan aksi seperti mengeklik, menggulir, dan mengetik tanpa memerlukan plugin khusus. Berbeda dari Operator milik OpenAI yang proprietary dan berbasis cloud (diluncurkan Januari 2025 dengan biaya $200 per bulan sebelum dihentikan pada Agustus) serta penawaran Gemini milik Google, Fara1.5 bersifat open-source dengan bobot yang dirilis secara publik. Microsoft mencapai performa ini dengan menata ulang proses pengembangan penuh, mulai dari pembuatan data dan tujuan pelatihan hingga desain model dan orkestrasi.
Spesifikasi Model dan Ketersediaan
Fara1.5 hadir dalam tiga ukuran: 4 miliar, 9 miliar, dan 27 miliar parameter, semuanya dibangun di atas Qwen 3.5, model dasar dari Alibaba yang Microsoft fine-tuned khusus untuk pekerjaan browser. Fara1.5-9B, varian berukuran menengah, mencetak 63,4% pada Online-Mind2Web—unggul dari penawaran OpenAI dan Google. Model dengan 9 miliar parameter sudah live di Azure AI Foundry, sementara varian 4 miliar dan 27 miliar akan hadir dalam waktu dekat.
Performa Benchmark
Online-Mind2Web, benchmark utama, menguji seberapa sering agen AI menyelesaikan dengan benar 300 tugas beragam di dunia nyata di 136 situs web populer yang aktif, termasuk perbandingan produk, pengisian formulir, dan layanan pemesanan. Skor mencerminkan tugas yang selesai dengan benar di internet nyata yang terus berubah.
Di WebVoyager, benchmark kedua yang mengukur keberhasilan tugas di web yang aktif, Fara1.5-27B mencapai 88,6%, sedikit mengungguli OpenAI Operator yang 87,0% dan melampaui H Company Holo2 (parameter 30 miliar) yang 83,0%.
Pesaing open-source mencetak skor lebih rendah: GUI-Owl-1.5 milik Alibaba (8 miliar parameter) mencapai 48,6%, sementara MolmoWeb milik AI2 mencetak 35,3%. Model sebelumnya dari Microsoft, Fara-7B, mencetak 34,1%—artinya Fara1.5-27B hampir dua kali lipat performa pendahulunya pada ukuran yang sebanding. Navigator n1 milik Yutori, alternatif proprietary teratas, mencapai 64,7%.
Metodologi Pelatihan
Microsoft menggunakan FaraGen1.5 untuk menghasilkan data pelatihan, dengan memakai GPT-5.4—model milik OpenAI—sebagai "teacher agent" untuk mendemonstrasikan cara menyelesaikan tugas browser. Demonstrasi ini menjadi data pelatihan untuk Fara1.5.
Tim tersebut juga membuat enam replikasi yang sepenuhnya fungsional dari situs web nyata, termasuk klien email, kalender, dan marketplace. Pelatihan domain sintetis ini memungkinkan model berlatih tugas yang memerlukan login atau aksi yang tidak dapat dibatalkan tanpa mengakses akun nyata, sehingga meningkatkan performa pada tugas "gated".
Keamanan dan Kontrol Pengguna
Setiap model dirancang untuk berhenti dan bertanya sebelum melakukan aksi yang tidak dapat dibalik. Fara1.5 berjalan melalui MagenticLite, lingkungan browser sandbox yang mencatat setiap tindakan dan memungkinkan pengguna menghentikan agen kapan pun. Menurut Yash Lara, Senior PM Lead di Microsoft Research, "Menyeimbangkan pengaman kuat seperti Critical Points dengan perjalanan pengguna yang mulus adalah kunci. Memiliki UI, seperti Magentic-UI milik Microsoft Research, sangat penting untuk memberi pengguna kesempatan melakukan intervensi saat diperlukan, sekaligus membantu menghindari kelelahan persetujuan."
Ekspansi ke Depan
Microsoft menyatakan rencana untuk memperluas Fara1.5 dari ranah browser ke aplikasi desktop dan perangkat lunak perusahaan.