Google Research випускає ReasoningBank: AI-агенти вчаться стратегіям міркування з успіху та невдач

Повідомлення Gate News, 22 квітня — Google Research опублікувала ReasoningBank, фреймворк пам’яті агентів, який дає змогу агентам, керованим великими мовними моделями, безперервно вчитись після розгортання. Фреймворк витягує універсальні стратегії міркування як з успішних, так і з невдалих досвідів виконання завдань, зберігаючи їх у банку пам’яті для пошуку та виконання під час подібних майбутніх завдань. Відповідна стаття була опублікована в ICLR, а код відкрито на GitHub.

ReasoningBank удосконалює два наявні підходи: Synapse, який записує повні траєкторії дій, але має обмежену переносимість через дрібнозернисту деталізацію, та Agent Workflow Memory, яка навчається лише на успішних випадках. ReasoningBank вносить дві ключові зміни: зберігання “patternів міркування” замість “послідовностей дій”, де кожна пам’ять містить структуровані поля для назви, опису та вмісту; і включення невдалих траєкторій у процес навчання. Фреймворк використовує модель для самостійної оцінки траєкторій виконання, перетворюючи невдалий досвід на правила проти типових помилок. Наприклад, правило “клікніть кнопку Load More, коли її побачите” еволюціонує в “спершу перевірте ідентифікатор поточної сторінки, уникайте нескінченних циклів прокрутки, а потім натисніть load more.”

Стаття також вводить Memory-aware Test-time Scaling (MaTTS), яке виділяє додаткові обчислення під час інференсу, щоб досліджувати кілька траєкторій і зберігати результати в банку пам’яті. Паралельне розгортання виконує кілька різних траєкторій для одного й того ж завдання, уточнюючи більш надійні стратегії через самопорівняння; послідовне розгортання ітеративно уточнює одну траєкторію, зберігаючи проміжне міркування в пам’яті.

У браузерних задачах WebArena та задачах кодування SWE-Bench-Verified із використанням Gemini 2.5 Flash як агента ReAct, ReasoningBank досягла на 8.3% вищого рівня успіху на WebArena та на 4.6% вищого на SWE-Bench-Verified порівняно з базовим підходом без пам’яті, зменшивши середню кількість кроків на завдання приблизно на 3. Додавання MaTTS із паралельним розгортанням (k=5) ще більше покращило рівень успіху на WebArena на 3 відсоткові пункти та зменшило кількість кроків додатково на 0.4.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

WLFI екосистема AI-проєкт WorldClaw запустив агентну операційну систему, не розкривши бренд — і все одно продає її за 10 тис. доларів?

Сімейний криптопроєкт Трампа World Liberty Financial (WLFI) знову робить хід: у партнерстві з WorldClaw запускає AI-модельний єдиний вхід WorldRouter. Його роблять ставку на платформу агентів, що об’єднує 300 AI-моделей: найдорожчий варіант оплати коштує майже 10 тис. доларів, але в комплекті користувачам пропонують апаратний пристрій із «не розкритими брендом і операційною системою», що викликає сумніви з боку зовнішніх спостерігачів. @WorldClawAI розширює доступ до AI, а $WLFI відіграє ключову роль в екосистемі. Користувачі можуть отримати доступ до 300+ моделей за допомогою WorldRouter, а агенти можуть

ChainNewsAbmedia14хв. тому

Meta розробляє AI-асистента Hatch для конкуренції з OpenClaw, до кінця червня завершить внутрішнє тестування

За повідомленням Financial Times від 5 травня, Meta розробляє AI-асистента (Hatch) для пересічних споживачів, натхненого OpenClaw від OpenAI. Компанія має намір до кінця червня завершити внутрішнє тестування; водночас Meta планує до четвертого кварталу цього року інтегрувати автономний агентний інструмент для покупок у свої сервіси Instagram.

MarketWhisper1год тому

Cloudflare: Нелюдський трафік тепер є більшістю, x402 кількість адрес фундації в Web Economics

Головний директор з стратегії Cloudflare заявив, що понад половину інтернет-трафіку нині формують не люди, підкресливши зміну моделей використання вебу, зумовлену AI-агентами. Компанія називає x402 Foundation ключовою ініціативою, яка створює інфраструктуру для підтримки стійкої цифрової економіки контенту.

CryptoFrontier2год тому

Індійські кіберзахисні компанії використовують ШІ, щоб скоротити тестування вразливостей до годин

Індійські кібербезпекові компанії, зокрема Indusface та Astra Security, впроваджують AI-агенти, створені на базі великих мовних моделей, щоб прискорити тестування програмних вразливостей з днів або тижнів до годин, повідомляє The Economic Times. Зміни відображають зростання швидкості дій атакувальників і з’являючуся здатність AI-інструментів

CryptoFrontier2год тому

HINT (Hive Intelligence) за 24 години різко виріс на 60,25%

Gate News повідомлення, 6 травня, за даними котирувань Gate, станом на момент публікації HINT (Hive Intelligence) зараз торгується на рівні 0,001695 долара США; за 24 години виріс на 60,25%, досягав максимуму 0,0019 долара США, а мінімум опускався до 0,0010577 долара США; 24-годинний обсяг торгів склав 10,01 тис. доларів США. Поточна ринкова капіталізація — близько 78,14 тис. доларів США. Hive Intelligence — це базовий інфраструктурний рівень для агентів на базі штучного інтелекту, який надає уніфікований прикладний програмний інтерфейс для даних блокчейну в реальному часі. Він усуває розрізненість даних, даючи змогу агентам ШІ без зусиль виконувати запити й взаємодіяти з мережею в ланцюжку. Як інституційна інфраструктура крипторинку, Hive Intelligence надає доступ через MCP-ендпойнти, REST A

GateNews2год тому

Anthropic представила 10 фінансових AI-агентів, які інтегрують Microsoft 365 для легкого виконання фінансових операцій

Anthropic представила 10 шаблонів фінансових AI-агентів, які інтегрують партнерські дані Microsoft 365, Moody’s, D&B тощо, а також можуть використовуватися як плагіни або для автоматизованого планування. Шаблони поділяються на два типи — дослідження/клієнтські запити та фінансові операції — і охоплюють інвестстратегії, фінансові моделі, KYC та інше, включно із вбудованими Moody’s рейтинги. Claude Opus 4.7 посів перше місце в бенчмарку для фінансових агентів, що свідчить: під впливом опиняться як кадрові ресурси фінансової сфери, так і регуляторний ландшафт.

ChainNewsAbmedia3год тому
Прокоментувати
0/400
Немає коментарів