Microsoft 的 Fara1.5 AI 在網頁瀏覽上勝過 OpenAI 與 Google

微軟研究院本週發布了 Fara1.5,這是一款用於網頁瀏覽任務的開放權重(open-weight)AI 模型,依據產業基準測試表現超越了 OpenAI 的 Operator 以及 Google 的 Gemini 2.5 Computer Use。Fara1.5-27B 在 Online-Mind2Web 的成績為 72%,而 OpenAI Operator 為 58.3%,Gemini 2.5 Computer Use 為 57.3%。該發布代表電腦使用代理(computer use agents)的競爭格局出現轉變——電腦使用代理是設計用來讀取瀏覽器螢幕並執行點擊、捲動與輸入等操作的 AI 系統,不需要額外的特殊外掛。與 OpenAI 的專有、基於雲端的 Operator(於 2025 年 1 月推出,月費 200 美元,後於 8 月遭到關閉)以及 Google 的 Gemini 方案不同,Fara1.5 是開源的,且已公開釋出模型權重。微軟透過重新思考整個開發流程來達成這項效能,包括資料生成與訓練目標到模型設計與編排。

模型規格與可用性

Fara1.5 提供三種規模:40 億、90 億與 270 億個參數,皆建立在 Qwen 3.5 上——這是一款阿里巴巴的基底模型,微軟針對瀏覽器工作進行了特定微調。Fara1.5-9B(中型變體)在 Online-Mind2Web 的成績為 63.4%——領先 OpenAI 與 Google 的相關產品。90 億參數模型目前已在 Azure AI Foundry 上線,而 40 億與 270 億參數的版本即將推出。

基準測試表現

Online-Mind2Web 是主要基準,測試 AI 代理在 136 個熱門的即時網站上,能否正確完成 300 項多樣的真實世界任務;涵蓋產品比較、表單填寫與訂位/預約服務。分數反映的是在實際且持續變動的網際網路上,任務正確完成的比例。

在 WebVoyager 上——另一個衡量即時網路任務成功率的基準——Fara1.5-27B 達到 88.6%,略高於 OpenAI Operator 的 87.0%,並以 83.0% 超越 H 公司(H Company)的 Holo2(300 億參數)。

開源競爭者的成績較低:阿里巴巴的 GUI-Owl-1.5(80 億參數)達到 48.6%,而 AI2 的 MolmoWeb 則為 35.3%。微軟先前的模型 Fara-7B 為 34.1%——這意味著在相近規模下,Fara1.5-27B 幾乎將前代的效能翻近一倍。Yutori 的 Navigator n1 是頂級的專有替代方案,成績為 64.7%。

訓練方法

微軟使用 FaraGen1.5 來產生訓練資料,並採用 GPT-5.4——OpenAI 的模型——作為「教師代理(teacher agent)」,示範如何完成瀏覽器任務。這些示範內容成為 Fara1.5 的訓練資料。

團隊也建立了六個完全可運作的真實網站複製品,包括電子郵件用戶端、行事曆與市集。這種合成網域訓練讓模型能練習需要登入或無法逆轉操作的任務,而無需存取真實帳戶;因此能提升「有門檻(gated)」任務的表現。

安全性與使用者控制

每個模型都被設計成在執行不可逆操作之前先停止並詢問。Fara1.5 會透過 MagenticLite 來運作——一個受隔離的瀏覽器環境,會記錄每一次行動,並允許使用者在任何時間點中止代理的執行。根據微軟研究院的資深產品經理領導者(Senior PM Lead)Yash Lara 表示:「在像 Critical Points 這樣的強健防護措施與順暢的使用者旅程之間取得平衡是關鍵。擁有像微軟研究院的 Magentic-UI 這樣的使用者介面,對於在必要時為使用者提供介入機會至關重要,同時也能幫助避免核准疲勞(approval fatigue)。」

未來擴充

微軟表示計畫將 Fara1.5 的應用從瀏覽器擴展到桌面與企業級軟體應用。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆