Google Research 發布 ReasoningBank:AI 代理從成功與失敗中學習推理策略

Gate 新聞訊息,4 月 22 日 — Google Research 發布 ReasoningBank:一種代理記憶框架,可讓由大型語言模型驅動的代理在部署後持續學習。該框架從成功與失敗的任務經驗中提取通用推理策略,並將其存入記憶庫,以便在未來相似任務中進行檢索與執行。相關論文已發表於 ICLR,程式碼也已在 GitHub 上開源。

ReasoningBank 優於兩種既有方法:Synapse 會記錄完整的動作軌跡,但由於粒度較細,因而可遷移性有限;Agent Workflow Memory 只會從成功案例中學習。ReasoningBank 做出兩項關鍵改變:改為存放「推理模式」,而非「動作序列」——每個記憶都包含用於標題、描述與內容的結構化欄位;並將失敗軌跡納入學習。該框架使用模型對執行軌跡進行自我評估,將失敗經驗轉化為防陷阱規則。例如,規則「看到就點擊『載入更多』按鈕」會演變為「先驗證目前頁面識別符,避免無限捲動迴圈,然後再點擊載入更多」。

該論文也提出了具備記憶感知的測試階段縮放 (MaTTS),它會在推論期間配置額外算力,以探索多條軌跡並將發現存入記憶庫。並行擴展會為同一任務生成多條不同的軌跡,透過自我比較來強化更穩健的策略;序列擴展則以迭代方式精煉單一軌跡,並將中間推理存入記憶。

在使用 Gemini 2.5 Flash 作為 ReAct 代理的 WebArena 瀏覽任務與 SWE-Bench-Verified 編碼任務中,ReasoningBank 相較於不使用記憶的基準,WebArena 的成功率提升 8.3%,SWE-Bench-Verified 的成功率提升 4.6%,且每個任務的平均步數降低約 3。將 MaTTS 搭配並行擴展 (k=5) 進一步使 WebArena 的成功率提升 3 個百分點,並使步數再降低 0.4。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Virtuals Protocol 推出 OpenGradient Titan 空投,今部分發 50 萬 OPG

根據 Virtuals Protocol 的官方公告,OpenGradient Titan Launch 空投已於 5 月 7 日正式上線。符合資格的用戶可直接從其 Virtuals 帳戶領取 OPG 代幣。今天將發放總計 500,000 OPG 代幣,以獎勵對 Virtuals 的貢獻者。

GateNews2小時前

NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態

NVIDIA 公布 Nemotron 3 Nano Omni 開源多模態模型,將視覺、語音與語言整合於單一模型,作為 AI 代理的感知層。核心為 30B-A3B MoE、256K context、9x 吞吐,支援文字、影像、音訊、影片等輸入,輸出為文字。與 Nemotron 3 Super/Ultra 協同,適用電腦操作、文件智慧與音畫理解等場景,並公開權重與訓練資料,部署覆蓋本地、NIM 與第三方平台。

鏈新聞abmedia2小時前

NeoSoul 與 AllScale 今日宣布在代理信貸與穩定幣結算方面的策略合作

根據 ChainCatcher,AI Agent Economy 專案 NeoSoul 於今日(5 月 7 日)宣布與 AllScale 建立策略合作夥伴關係,藉此探索用於自主 Agent 協作的信用生成與穩定幣結算機制。該合作夥伴關係將聚焦於自動化 Agent 之間的付款流程——作為

GateNews3小時前

FIS 與 Anthropic 開發用於反洗錢的 AI 代理,並計畫在 2026 年下半年部署至 BMO 以及 Amalgamated Bank

FIS 和 Anthropic 正在開發用於自動化金融犯罪調查的 AI 代理程式,先從反洗錢作業開始。金融犯罪 AI 代理程式將從銀行系統提取資料,並將交易與已知手法進行比對評估,以協助調查人員審閱其相關內容

GateNews5小時前

Prime Intellect Lab 於 5 月 7 日推出一般可用(GA),並在測試版完成 10,000+ 次訓練執行

根據 Prime Intellect,該公司旗下的 Lab 平台於 2026 年 5 月 7 日退出測試版,並轉為一般可用,作為用於自我強化 AI 代理的端到端訓練環境。統一式管線整合了模型改進工作流程,使使用者能夠定義任務、設定並配置

GateNews5小時前

Cloudflare 在 Consensus 2026 上每天觸發 10 億筆 HTTP 402 回應,並與 Visa 與 Experian 推出「Agent Trust Framework」

根據 Foresight News,Cloudflare 首席安全官 Stephanie Cohen 於 2026 年的 Consensus 上宣布,該平台每天觸發約 10 億次 HTTP 402 回應,反映出 AI 代理對付費存取網頁內容的需求。該公司與 Visa 和 Experian 共同推出了 Agent Trust

GateNews7小時前
留言
0/400
暫無留言