封面新闻讯息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细介绍了其网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确性与工具使用效率。
强化学习阶段使用 GRPO 算法,并来自两类数据源:一是专有的多跳可验证问答数据集,由内部种子查询构建而来,这些查询需要 2–4 跳推理,并通过多求解器验证;二是基于评分规则的通用对话数据,将部署需求转换为可客观核查的原子条件,以防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会被计入 (question-answer match 或所有评分规则标准均满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用与生成长度施加平滑惩罚,其基线为同一组中正确答案的基线水平。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它使用单次工具调用达到 57.3% 的准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 实现 73.9% 的准确率;相比之下,GPT-5.4 为 67.8%(每次查询 $0.085),Sonnet 4.6 为 62.4%(每次查询 $0.153)。成本数据基于各提供方公开的 API 定价,并且不包括缓存优化。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
ChatGPT 用户现在可在 OpenClaw 平台上访问订阅,萨姆·奥尔特曼宣布
根据 Sam Altman 今天的公告,ChatGPT 用户现在可以使用他们的 ChatGPT 账号登录 OpenClaw 代理平台,并直接访问他们在该平台上的现有 ChatGPT 订阅。
GateNews3小时前
AI 代理 Manfred 成立公司,计划于 5 月底开始交易加密货币
据报道,AI 代理 Manfred 已成立自己的公司,并获得了一个加密货币钱包以及用于雇佣员工、进行支付和开展业务的凭证。该代理计划在年底前开始进行加密货币交易,
GateNews4小时前
AI 代理全面经营企业!旧金山人工智能自动售货机揭示崭新商机
本文报道称,Valerie 自动售货机由 OpenClaw 驱动,让 AI 代理实际经营日常营运、售价、库存、社群,甚至管理银行账户。试验显示 AI 能模拟企业主管决策,但出现定价幻觉,比如把蛋白棒涨到 15 美元。法律障碍如 KYC、银行开户与食品许可尚未克服,虽然有信托等机制让 AI 代理持有企业,但实际挑战仍多。
鏈新聞abmedia7小时前
AI 代理 Manfred 成立公司,并在 5 月底交易上线前获得加密钱包
AI 代理 Manfred 已成立自己的公司,并获得一个加密货币钱包以及雇佣员工、进行付款和开展业务所需的凭证。该代理尚未安排在年底之前开始进行加密货币交易
GateNews10小时前
MoonPay 在 Mastercard 网络上推出用于 AI 代理的 MoonAgents 卡片
据 The Block 报道,MoonPay 于周五推出 MoonAgents Card,这是一张虚拟 Mastercard 借记卡,可在支付时将稳定币实时兑换为法币。该卡通过 Monavate 发行,Monavate 是受监管的支付平台,并且是 Mastercard 的主要成员;并与 Exodus M
GateNews10小时前
AI 代理 Manfred 组建公司,并在 5 月交易启动前取得加密钱包
AI 代理 Manfred 已成立自己的公司,并获得了一个加密钱包和商业资质,尽管它将在 5 月底之前不会开始交易加密货币。该代理现在已具备雇佣员工、进行付款以及开展业务的条件
GateNews16小时前