Microsoft Research tuần này đã ra mắt Fara1.5, một mô hình AI trọng số mở cho các tác vụ duyệt web, vượt trội OpenAI's Operator và Google's Gemini 2.5 Computer Use trong các bài benchmark ngành. Fara1.5-27B đạt 72% trên Online-Mind2Web, so với 58,3% của OpenAI Operator và 57,3% của Gemini 2.5 Computer Use. Đợt phát hành này đánh dấu sự thay đổi trong bối cảnh cạnh tranh của các “computer use agents” — các hệ thống AI được thiết kế để đọc màn hình trình duyệt và thực hiện các thao tác như nhấp chuột, cuộn trang và gõ văn bản mà không cần plugin đặc biệt. Khác với Operator độc quyền dạng cloud của OpenAI (ra mắt vào tháng 1/2025 với giá 200 USD/tháng trước khi bị ngừng vào tháng 8) và sản phẩm của Google, Fara1.5 là mã nguồn mở với trọng số được phát hành công khai. Microsoft đạt hiệu năng này bằng cách “tái thiết kế” toàn bộ quy trình phát triển, từ tạo dữ liệu và mục tiêu huấn luyện đến thiết kế mô hình và điều phối.
Thông số mô hình và tính sẵn sàng
Fara1.5 có ba phiên bản: 4 tỷ, 9 tỷ và 27 tỷ tham số, tất cả đều xây trên Qwen 3.5, một mô hình nền tảng của Alibaba mà Microsoft đã tinh chỉnh riêng cho công việc trình duyệt. Fara1.5-9B, phiên bản kích thước trung bình, đạt 63,4% trên Online-Mind2Web — vượt cả hai sản phẩm của OpenAI và Google. Mô hình 9 tỷ tham số hiện đã có trên Azure AI Foundry, trong khi các biến thể 4 tỷ và 27 tỷ sẽ ra mắt ngay sau đó.
Hiệu năng benchmark
Online-Mind2Web, benchmark chính, kiểm tra tần suất một AI agent hoàn thành đúng 300 tác vụ đa dạng, bối cảnh thực tế trên 136 website phổ biến đang hoạt động, bao gồm so sánh sản phẩm, điền form và dịch vụ đặt chỗ. Điểm số phản ánh các tác vụ được hoàn thành chính xác trên chính internet đang thay đổi.
Trên WebVoyager, benchmark thứ hai đo mức thành công tác vụ trên web trực tiếp, Fara1.5-27B đạt 88,6%, nhỉnh hơn 87,0% của OpenAI Operator và vượt H Company's Holo2 (30 tỷ tham số) với 83,0%.
Các đối thủ mã nguồn mở ghi điểm thấp hơn: GUI-Owl-1.5 của Alibaba (8 tỷ tham số) đạt 48,6%, trong khi MolmoWeb của AI2 đạt 35,3%. Mô hình trước đây của Microsoft, Fara-7B, đạt 34,1% — nghĩa là Fara1.5-27B gần như nhân đôi hiệu năng so với người tiền nhiệm ở kích thước tương đương. Navigator n1 của Yutori, phương án thay thế độc quyền hàng đầu, đạt 64,7%.
Phương pháp huấn luyện
Microsoft dùng FaraGen1.5 để tạo dữ liệu huấn luyện, sử dụng GPT-5.4 — mô hình của OpenAI — làm “teacher agent” để minh họa cách hoàn thành các tác vụ trình duyệt. Những bản demo này trở thành dữ liệu huấn luyện cho Fara1.5.
Nhóm cũng tạo ra sáu bản sao hoàn toàn hoạt động của các website thực tế, bao gồm ứng dụng email, lịch và các nền tảng marketplace. Việc huấn luyện trên miền tổng hợp này giúp mô hình luyện các tác vụ yêu cầu đăng nhập hoặc hành động không thể hoàn tác mà không cần truy cập tài khoản thật, qua đó cải thiện hiệu năng trên các tác vụ “có cổng” (gated).
An toàn và quyền kiểm soát của người dùng
Mỗi mô hình đều được thiết kế để dừng lại và hỏi trước khi thực hiện các hành động không thể đảo ngược. Fara1.5 chạy qua MagenticLite, một môi trường trình duyệt dạng sandbox ghi log mọi hành động và cho phép người dùng dừng agent tại bất kỳ thời điểm nào. Theo Yash Lara, Senior PM Lead tại Microsoft Research, “Cân bằng các cơ chế bảo vệ vững chắc như Critical Points với hành trình người dùng mượt mà là chìa khóa. Việc có một UI, như Magentic-UI của Microsoft Research, là rất quan trọng để cung cấp cho người dùng cơ hội can thiệp khi cần thiết, đồng thời giúp tránh tình trạng mệt mỏi do phải phê duyệt liên tục.”
Mở rộng trong tương lai
Microsoft cho biết kế hoạch sẽ mở rộng Fara1.5 từ trình duyệt sang các ứng dụng phần mềm desktop và cấp doanh nghiệp.