Perplexity 揭露 Web 搜尋代理後訓練方法;基於 Qwen3.5 的模型在準確率與成本上超越 GPT-5.4

封鎖新聞訊息,4 月 23 日 — Perplexity 的研究團隊發布了一篇技術文章,詳述其用於 Web 搜尋代理的後訓練方法。該方法使用兩個開源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 與 Qwen3.5-397B-A17B),並採用兩階段流程:先進行監督式微調 (SFT) 以建立遵循指令與語言一致性,接著透過線上強化學習 (RL) 以最佳化搜尋準確性與工具使用效率。

RL 階段使用 GRPO 演算法,且有兩種資料來源:一個專有的多跳可驗證問答資料集,係由內部種子查詢構建而成,要求推理 2–4 個跳步,並透過多解算器驗證;以及基於規則量表的通用對話資料,將部署需求轉換為可客觀檢查的原子條件,以防止 SFT 行為退化。

獎勵設計採用閘控聚合——只有在達到基準正確性時((question-answer match))或所有規則量表準則均滿足時,偏好分數才會被計入,以避免高偏好訊號掩蓋事實錯誤。效率懲罰則使用同組錨定,對超出同組中正確答案基準的工具呼叫與生成長度套用平滑懲罰。

評估顯示 Qwen3.5-397B-SFT-RL 在各類搜尋基準上達到業界一流的表現。在 FRAMES 上,單次工具呼叫可達 57.3% 準確率,較 GPT-5.4 高出 5.7 個百分點,並較 Claude Sonnet 4.6 高出 4.7 個百分點。在中等預算 (four tool calls) 下,它以每次查詢 $0.02 達到 73.9% 準確率;相比之下,GPT-5.4 為 67.8%(每次查詢 $0.085),Sonnet 4.6 為 62.4%(每次查詢 $0.153)。成本數據基於各供應商的公開 API 定價,且不包含快取最佳化。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Bakkt 完成 DTR 收購,並在營收成長與策略重整中推進

Bakkt 已完成對 Distributed Technologies Research 的收購,這項舉措旨在將原生於人工智慧(AI)的穩定幣基礎設施整合到其核心金融服務中。 現代化全球結算 Bakkt Inc. 已完成對 Distributed Technologies 的收購

Coinpedia2小時前

AI 代理 Manfred 成立公司,準備於 5 月底進行加密貨幣交易

AI 代理 Manfred 已成立自己的公司,並且已擁有加密貨幣錢包與商業憑證,可用來聘請人員、進行付款並執行作業。該代理預計將在月底之前開始進行加密貨幣交易,並且已經安排開始交易至

GateNews3小時前

AI 代理 Manfred 成立公司,取得加密貨幣錢包與招聘憑證,為 5 月底交易啟動做準備

根據報導,AI 代理 Manfred 已成立自己的公司,並取得一個加密貨幣錢包以及憑證,用於聘請人員、付款以及開展業務。該代理預計將在年底前開始進行加密貨幣交易。

GateNews9小時前

MoonPay 於週五推出 MoonAgents 卡,供 AI 代理使用的虛擬萬事達卡

根據 The Block,MoonPay 於週五推出 MoonAgents Card,一款虛擬 Mastercard 借記卡。該卡旨在同時服務 AI 代理與使用者,能在付款當下將穩定幣兌換為法幣,並讓使用者可在全球任何接受 Mastercard 的線上商家消費。 這張卡 i

GateNews15小時前

AI 代理 Manfred 成立公司,準備在 5 月底前交易加密貨幣

AI 代理 Manfred 已經成立了一家公司,並取得了一個加密貨幣錢包以及可用於雇用員工、進行付款和開展業務的憑證。該代理預定在年底前開始進行加密貨幣交易,之後

GateNews15小時前

ChatGPT 使用者現在可在 OpenClaw 平台存取訂閱,Sam Altman 宣布

根據 Sam Altman 今天的公告,ChatGPT 使用者現在可以使用他們的 ChatGPT 帳戶登入 OpenClaw 代理平台,並直接存取他們在平台上的既有 ChatGPT 訂閱。

GateNews21小時前
留言
0/400
暫無留言