Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。
强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。
评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
MoonPay ra mắt thẻ MoonAgents trên mạng Mastercard vào thứ Sáu
Theo The Block, MoonPay đã ra mắt MoonAgents Card vào thứ Sáu—một thẻ ghi nợ Mastercard ảo cho phép các AI agent và người dùng chi tiêu stablecoin trực tiếp từ các ví onchain. Thẻ được phát hành thông qua Monavate, một nền tảng thanh toán toàn cầu được quản lý và là thành viên chính của Mastercard, trong
GateNews2giờ trước
137 Ventures đóng $700M trong quỹ mới, AUM đạt 15 tỷ USD
Theo ChainCatcher, 137 Ventures, nhà đầu tư sớm vào SpaceX, mới đây đã hoàn tất việc huy động vốn cho hai quỹ mới với tổng quy mô hơn 700 triệu USD, qua đó nâng tài sản được quản lý lên hơn 15 tỷ USD. Nguồn vốn mới sẽ hỗ trợ đầu tư vào các tác nhân AI, robot và hệ thống đẩy tên lửa không gian
GateNews2giờ trước
Reddit Tăng 16% nhờ Triển vọng Q2 Mạnh Mẽ; Apple Gặp Thiếu Hụt Mac khi Nhu cầu AI Vượt Quá Nguồn Cung
Cổ phiếu của Reddit đã tăng 16% trước giờ mở cửa thị trường vào thứ Sáu sau khi công ty đưa ra triển vọng doanh thu cho quý tới cao hơn dự kiến. Lượng khách truy cập hoạt động hằng ngày tăng 17% lên 126,8 triệu, trong khi doanh thu trung bình trên mỗi người dùng trên toàn cầu nhảy 44%, nhờ vào các tính năng được hỗ trợ bởi AI-powered
GateNews3giờ trước
Visa ra mắt chương trình Agentic Ready tại Hồng Kông vào ngày 1/5, cho phép thanh toán bằng AI Agent
Theo truyền thông Hồng Kông Ming Pao, Visa đã ra mắt chương trình Visa Agentic Ready tại Hồng Kông vào ngày 1/5, cho phép thanh toán bằng tác nhân AI. Chương trình tận dụng cơ chế mã hóa token, xác minh danh tính, quản lý rủi ro và cấp quyền. Các đơn vị tham gia ban đầu bao gồm
GateNews5giờ trước
OpenClaw Phát hành v2026.4.29 vào ngày 29 tháng 4, Nâng cấp Bộ nhớ lên Wiki Cá nhân hóa với Theo dõi Quan hệ
Theo Beating, trợ lý AI mã nguồn mở OpenClaw (GitHub 367K lượt sao) đã phát hành v2026.4.29 vào ngày 29/4, đánh dấu bản cập nhật thứ hai trong vòng hai ngày. Hệ thống bộ nhớ đã phát triển từ cơ chế gợi nhớ dựa trên truy xuất đơn giản sang wiki được cá nhân hóa, cho phép các tác nhân tự động xây dựng hồ sơ nhân vật và theo dõi r
GateNews15giờ trước
Giám đốc điều hành Google, ông Sundar Pichai, tiết lộ việc sử dụng Gemini AI để thấu hiểu bản chất con người và xây dựng giao tiếp chân thành hơn
Pichai cho biết trước các cuộc họp quan trọng, ông dùng các quan điểm của Gemini để phân tích và dự đoán suy nghĩ của đối phương, từ đó tăng cường sự thấu cảm và giao tiếp chân thành hơn. Các tác nhân AI cũng có thể tự động sắp xếp email, lên lịch và tạo bản tóm tắt, giúp mọi việc hằng ngày hiệu quả hơn. Ngoài ra, các nền tảng AI lấy mở sáng tạo làm trung tâm đang nổi lên; các công nghệ mã nguồn mở như Gemini 4 đang hạ thấp rào cản gia nhập. Đồng thời, ông nhấn mạnh việc xây dựng khung quản trị AI, đồng thời kêu gọi giới chính trị và xã hội cùng tham gia để giải quyết các thách thức như an ninh mạng, deepfake và tính bền vững.
ChainNewsAbmedia18giờ trước