Google Research Phát hành ReasoningBank: Các tác nhân AI Học các chiến lược suy luận từ Thành công và Thất bại

Tin cổng Gate News, ngày 22 tháng 4 — Google Research đã phát hành ReasoningBank, một khung bộ nhớ tác nhân cho phép các tác nhân điều khiển bởi mô hình ngôn ngữ lớn liên tục học hỏi sau khi triển khai. Khung này trích xuất các chiến lược suy luận phổ quát từ cả kinh nghiệm nhiệm vụ thành công và thất bại, lưu chúng vào một ngân hàng bộ nhớ để tra cứu và thực thi trên các nhiệm vụ tương tự trong tương lai. Bài báo liên quan được công bố tại ICLR, và mã nguồn đã được mở trên GitHub.

ReasoningBank cải tiến dựa trên hai cách tiếp cận hiện có: Synapse, ghi lại toàn bộ quỹ đạo hành động nhưng có khả năng chuyển giao hạn chế do mức độ chi tiết quá nhỏ, và Agent Workflow Memory, chỉ học từ các trường hợp thành công. ReasoningBank thực hiện hai thay đổi then chốt: lưu “các mẫu suy luận” thay vì “chuỗi hành động,” với mỗi bộ nhớ chứa các trường có cấu trúc cho tiêu đề, mô tả và nội dung; và đưa các quỹ đạo thất bại vào quá trình học. Khung sử dụng một mô hình để tự đánh giá các quỹ đạo thực thi, biến các trải nghiệm thất bại thành các quy tắc tránh bẫy. Ví dụ, quy tắc “nhấp vào nút Tải thêm khi thấy” phát triển thành “xác minh trước mã định danh của trang hiện tại, tránh các vòng lặp cuộn vô tận, rồi sau đó nhấp tải thêm.”

Bài báo cũng giới thiệu Memory-aware Test-time Scaling (MaTTS), phân bổ thêm năng lực tính toán trong quá trình suy luận để khám phá nhiều quỹ đạo và lưu kết quả vào ngân hàng bộ nhớ. Mở rộng song song chạy nhiều quỹ đạo riêng biệt cho cùng một nhiệm vụ, tinh chỉnh các chiến lược mạnh mẽ hơn thông qua so sánh tự thân; mở rộng tuần tự tinh chỉnh lặp một quỹ đạo duy nhất, lưu suy luận trung gian vào bộ nhớ.

Trong các tác vụ trình duyệt WebArena và các tác vụ mã hóa SWE-Bench-Verified sử dụng Gemini 2.5 Flash làm tác nhân ReAct, ReasoningBank đạt tỷ lệ thành công cao hơn 8,3% trên WebArena và cao hơn 4,6% trên SWE-Bench-Verified so với một chuẩn không có bộ nhớ, đồng thời giảm trung bình số bước trên mỗi tác vụ khoảng 3. Việc thêm MaTTS với mở rộng song song (k=5) tiếp tục cải thiện tỷ lệ thành công trên WebArena thêm 3 điểm phần trăm và giảm số bước thêm 0,4.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Anthropic ra mắt Claude Dreams: Agent tự sắp xếp trí nhớ giữa các công việc, loại bỏ trùng lặp và mâu thuẫn

Anthropic tại sự kiện Code with Claude đã công bố Dreams, cho phép Claude Managed Agents tự động sắp xếp ký ức giữa nhiều phiên hội thoại, loại bỏ trùng lặp và mâu thuẫn, đồng thời cập nhật các mục cũ; xuất ra một kho ký ức đã được xử lý để có thể kiểm chứng. Giới hạn đầu vào là 100 session và 4.096 ký tự, chạy bất đồng bộ, hoàn tất trong vài phút đến vài chục phút, hỗ trợ quan sát theo thời gian thực. Bản xem trước nghiên cứu cần đăng ký; hiện chỉ hỗ trợ claude-opus-4-7 và claude-sonnet-4-6, thời điểm ra mắt chính thức vẫn chưa được xác định.

ChainNewsAbmedia1giờ trước

Cloudflare hợp tác với Stripe để phát triển Agent tự đàm phán: AI có thể tự tạo tài khoản, mua tên miền và triển khai ứng dụng

Cloudflare và Stripe ngày 30 tháng 4 cùng ra mắt một giao thức mới, cho phép AI Agent tự động tạo tài khoản Cloudflare, đăng ký gói thanh toán, đăng ký tên miền, lấy API token và trực tiếp triển khai ứng dụng mà không cần con người can thiệp. Theo bài đăng trên blog chính thức của Cloudflare, toàn bộ quy trình từ đầu đến cuối không cần con người vào bảng điều khiển, không phải sao chép-dán token hay nhập thông tin thẻ tín dụng; người dùng chỉ cần cấp quyền trước và chấp nhận điều khoản sử dụng của Cloudflare. Trong tuần này, thông tin đăng tải đã nhận được 548 điểm trên Hacker News, trở thành một trong những tin tức hạ tầng tiêu biểu cho AI Agent tự chủ thực thi nhiệm vụ. Kiến trúc 3 lớp: khám phá dịch vụ, ủy quyền danh tính, thanh toán phi tập trung hóa bằng token Cloudflare-Stripe

ChainNewsAbmedia1giờ trước

Kỹ sư Coinbase: AI Agents có thể làm gián đoạn mô hình quảng cáo trên web

Erik Reppel, một kỹ sư tại Coinbase, cho biết các tác nhân trí tuệ nhân tạo có thể làm suy yếu một cách căn bản mô hình kinh doanh của internet vốn phụ thuộc vào quảng cáo. Theo Reppel, nền kinh tế web phụ thuộc nhiều vào doanh thu quảng cáo do người dùng tạo ra, nhưng các tác nhân AI sẽ vượt qua cơ chế đó

CryptoFrontier1giờ trước

Prophet ra mắt thị trường dự đoán được hỗ trợ bởi AI với lô giao dịch trực tiếp trị giá 10.000 USD hôm nay

Theo MetaversePost, Prophet đã ra mắt hôm nay (6/5) một thị trường dự đoán được hỗ trợ bởi AI, với 10.000 USD hỗ trợ USDC để giao dịch trực tiếp. Người dùng có thể giao dịch trực tiếp với một đối tác AI, đối tác này tạo ra định giá theo xác suất cho từng thị trường, với một số hợp đồng được thanh toán trong vòng 24

GateNews8giờ trước

Tessera Labs Đóng Vòng Series A do a16z dẫn dắt; Nhóm AI gồm 6 người thay thế 60 nhân sự tư vấn SAP

Theo Beating, Tessera Labs, một công ty tích hợp hệ thống AI, đã hoàn tất vòng gọi vốn Series A do a16z dẫn dắt. Được thành lập vào năm 2024, công ty khởi nghiệp này sử dụng một nền tảng đa tác tử để tự động hóa quá trình di chuyển từ SAP ECC sang S/4HANA, vốn trước đây thường mất 3-5 năm và 100 triệu USD đến 500 triệu USD cho mỗi

GateNews8giờ trước

VN-Index đứng vững trên 40.000 điểm, chứng khoán Mỹ lập kỷ lục mới, nhưng ngành công nghiệp AI vẫn mới ở giai đoạn đầu?

Goldman Sachs 指 ra rằng nhu cầu AI sẽ tăng mạnh mức tiêu thụ token nhờ các tác vụ chạy của agent dành cho người dùng (consumer). Đến năm 2030, mức tăng có thể vượt 12 lần; lượng token tính toán theo tháng có thể đạt 60 nghìn tỷ. Điểm khác giữa non-agent và consumer agent nằm ở chỗ long thời tự động hóa các tác vụ; nếu điều đó xảy ra, AI sẽ đi vào quy trình làm việc mang tính agentic. Larry Fink cho biết nguồn cung năng lực tính toán đang thiếu hụt nghiêm trọng, và trong tương lai có thể xuất hiện các hợp đồng tương lai về năng lực tính toán; cả hai cùng là động lực cho luận điểm tăng giá nhằm thúc đẩy hạ tầng AI. Bài viết nhận định AI vẫn đang ở giai đoạn ban đầu.

ChainNewsAbmedia9giờ trước
Bình luận
0/400
Không có bình luận