Microsoft 的 Fara1.5 AI 在網頁瀏覽上勝過 OpenAI 與 Google

2026-05-22 20:38:20

微軟研究院本週發布了 Fara1.5，這是一款用於網頁瀏覽任務的開放權重（open-weight）AI 模型，依據產業基準測試表現超越了 OpenAI 的 Operator 以及 Google 的 Gemini 2.5 Computer Use。Fara1.5-27B 在 Online-Mind2Web 的成績為 72%，而 OpenAI Operator 為 58.3%，Gemini 2.5 Computer Use 為 57.3%。該發布代表電腦使用代理（computer use agents）的競爭格局出現轉變——電腦使用代理是設計用來讀取瀏覽器螢幕並執行點擊、捲動與輸入等操作的 AI 系統，不需要額外的特殊外掛。與 OpenAI 的專有、基於雲端的 Operator（於 2025 年 1 月推出，月費 200 美元，後於 8 月遭到關閉）以及 Google 的 Gemini 方案不同，Fara1.5 是開源的，且已公開釋出模型權重。微軟透過重新思考整個開發流程來達成這項效能，包括資料生成與訓練目標到模型設計與編排。

模型規格與可用性

Fara1.5 提供三種規模：40 億、90 億與 270 億個參數，皆建立在 Qwen 3.5 上——這是一款阿里巴巴的基底模型，微軟針對瀏覽器工作進行了特定微調。Fara1.5-9B（中型變體）在 Online-Mind2Web 的成績為 63.4%——領先 OpenAI 與 Google 的相關產品。90 億參數模型目前已在 Azure AI Foundry 上線，而 40 億與 270 億參數的版本即將推出。

基準測試表現

Online-Mind2Web 是主要基準，測試 AI 代理在 136 個熱門的即時網站上，能否正確完成 300 項多樣的真實世界任務；涵蓋產品比較、表單填寫與訂位／預約服務。分數反映的是在實際且持續變動的網際網路上，任務正確完成的比例。

在 WebVoyager 上——另一個衡量即時網路任務成功率的基準——Fara1.5-27B 達到 88.6%，略高於 OpenAI Operator 的 87.0%，並以 83.0% 超越 H 公司（H Company）的 Holo2（300 億參數）。

開源競爭者的成績較低：阿里巴巴的 GUI-Owl-1.5（80 億參數）達到 48.6%，而 AI2 的 MolmoWeb 則為 35.3%。微軟先前的模型 Fara-7B 為 34.1%——這意味著在相近規模下，Fara1.5-27B 幾乎將前代的效能翻近一倍。Yutori 的 Navigator n1 是頂級的專有替代方案，成績為 64.7%。

訓練方法

微軟使用 FaraGen1.5 來產生訓練資料，並採用 GPT-5.4——OpenAI 的模型——作為「教師代理（teacher agent）」，示範如何完成瀏覽器任務。這些示範內容成為 Fara1.5 的訓練資料。

團隊也建立了六個完全可運作的真實網站複製品，包括電子郵件用戶端、行事曆與市集。這種合成網域訓練讓模型能練習需要登入或無法逆轉操作的任務，而無需存取真實帳戶；因此能提升「有門檻（gated）」任務的表現。

安全性與使用者控制

每個模型都被設計成在執行不可逆操作之前先停止並詢問。Fara1.5 會透過 MagenticLite 來運作——一個受隔離的瀏覽器環境，會記錄每一次行動，並允許使用者在任何時間點中止代理的執行。根據微軟研究院的資深產品經理領導者（Senior PM Lead）Yash Lara 表示：「在像 Critical Points 這樣的強健防護措施與順暢的使用者旅程之間取得平衡是關鍵。擁有像微軟研究院的 Magentic-UI 這樣的使用者介面，對於在必要時為使用者提供介入機會至關重要，同時也能幫助避免核准疲勞（approval fatigue）。」

未來擴充

微軟表示計畫將 Fara1.5 的應用從瀏覽器擴展到桌面與企業級軟體應用。

View Source

免責聲明：本頁面資訊可能來自第三方來源，僅供參考，不代表 Gate 的立場或觀點，亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險，請勿僅依賴本頁資訊作出決策。詳情請參閱免責聲明。