Google Research представляет ReasoningBank: ИИ-агенты учатся стратегиям рассуждений на успехах и неудачах

Сообщение Gate News, 22 апреля — Google Research выпустила ReasoningBank, фреймворк агентной памяти, который позволяет агентам, управляемым большими языковыми моделями, непрерывно учиться после развертывания. Фреймворк извлекает универсальные стратегии рассуждений как из успешных, так и из неудачных опытов выполнения задач, сохраняя их в банке памяти для поиска и выполнения при выполнении похожих будущих задач. Соответствующая работа была опубликована в ICLR, а код выложен в открытый доступ на GitHub.

ReasoningBank улучшает два существующих подхода: Synapse, который фиксирует полные траектории действий, но имеет ограниченную переносимость из-за мелкозернистой детализации, и Agent Workflow Memory, который обучается только на успешных случаях. ReasoningBank вносит два ключевых изменения: хранит «паттерны рассуждений» вместо «последовательностей действий», при этом каждая запись памяти содержит структурированные поля для заголовка, описания и содержимого; и включает траектории неудач в обучение. Фреймворк использует модель для самопроверки траекторий выполнения, превращая неудачные опыты в правила против типичных ошибок. Например, правило «нажимай кнопку Load More, когда она видна» развивается в «сначала проверь идентификатор текущей страницы, избегай циклов бесконечной прокрутки, затем нажми load more».

В статье также вводится Memory-aware Test-time Scaling (MaTTS), которое выделяет дополнительные вычисления во время вывода, чтобы исследовать несколько траекторий и сохранять результаты в банке памяти. Параллельное расширение запускает несколько различных траекторий для одной и той же задачи, уточняя более надежные стратегии за счет самосравнения; последовательное расширение итеративно уточняет одну траекторию, сохраняя промежуточные рассуждения в памяти.

В задачах браузера WebArena и задачах по программированию SWE-Bench-Verified с использованием Gemini 2.5 Flash в качестве ReAct-агента ReasoningBank достигла на 8,3% более высокой доли успешных исходов на WebArena и на 4,6% более высокой на SWE-Bench-Verified по сравнению с базовой версией без памяти, сократив среднее число шагов на задачу примерно на 3. Добавление MaTTS с параллельным расширением (k=5) дополнительно улучшило успешность на WebArena на 3 процентных пункта и уменьшило число шагов еще на 0,4.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Пророк запускает AI-рынок прогнозов с онлайн-торговым траншем на $10 000 сегодня

Согласно MetaversePost, Prophet запустила сегодня (6 мая) AI-ориентированный рынок прогнозов, выделив $10 000 в USDC на живую торговлю. Пользователи могут торговать напрямую против AI-контрагента, который формирует вероятностное ценообразование для каждого рынка, при этом некоторые контракты могут быть урегулированы в течение 24 часов

GateNews2ч назад

Tessera Labs закрывает раунд Series A под руководством a16z; команда из шести человек в области ИИ заменяет 60 SAP-консультантов

По данным Beating, Tessera Labs, компания по интеграции AI-систем, завершила раунд финансирования Series A под руководством a16z. Стартап, основанный в 2024 году, использует многоагентную платформу для автоматизации миграций SAP ECC на S/4HANA, которые традиционно занимают 3–5 лет и обходятся в $100 миллионов до $500 миллионов per

GateNews2ч назад

Фьючерс на Тайвань удержался выше 40 000 пунктов, США установили новый максимум, но разве индустрия ИИ только не на ранней стадии?

Goldman Sachs заявил, что спрос на ИИ значительно вырастет из-за потребительских агентных рабочих нагрузок, что приведёт к резкому росту потребления токенов: к 2030 году рост может превысить 12 раз, а месячные токен-вычисления достигнут 60 трлн; разница между не-агентными и consumer agent в том, что последние выполняют задачи в течение долгого времени за счёт автоматизации, и если это сбудется, ИИ войдёт в агентный рабочий процесс. Larry Fink заявил, что предложение вычислительных мощностей крайне ограничено, в будущем возможно появятся фьючерсы на вычислительные мощности; оба фактора вместе поддержат бычий тезис по развитию ИИ-инфраструктуры. В статье отмечается, что ИИ по-прежнему находится на ранней стадии.

ChainNewsAbmedia3ч назад

WLFI-экосистема AI-проект WorldClaw представила агентную операционную систему: даже без раскрытия бренда все равно можно продать за $10 000?

Семья Трампа вновь запускает криптопроект World Liberty Financial (WLFI) — в партнёрстве с WorldClaw представлен универсальный вход для AI-моделей WorldRouter. Платформа нацелена на объединение агентской экосистемы, включающей 300 AI-моделей: максимальный платный тариф стоит почти 10 000 долларов, но в комплекте вместо чего-то ожидаемого идёт аппаратное устройство с «не раскрытыми брендом и операционной системой», что вызвало сомнения у внешнего сообщества. @WorldClawAI расширяет доступ к AI, а $WLFI играет ключевую роль в экосистеме. Пользователи могут получать доступ к 300+ моделям через WorldRouter, а агенты могут

ChainNewsAbmedia6ч назад

Meta разрабатывает ИИ-ассистента Hatch в конкуренции с OpenClaw, планирует завершить внутреннее тестирование до конца июня

Согласно сообщению Financial Times от 5 мая, Meta разрабатывает AI-ассистента Hatch для обычных пользователей, черпая вдохновение из OpenClaw от OpenAI. Цель — завершить внутренние тесты к концу июня; параллельно Meta планирует до четвертого квартала этого года интегрировать автономный агентский инструмент для покупок в свои сервисы Instagram.

MarketWhisper7ч назад

Cloudflare: доля не-человеческого трафика сейчас превысила большинство, x402 Foundation адреса фонда Web Economics

Главный директор по стратегии Cloudflare заявил, что теперь более половины интернет-трафика приходится на не-человеческие источники, подчеркнув сдвиг в моделях использования веба, обусловленный ИИ-агентами. Компания указывает на x402 Foundation как на ключевую инициативу по созданию инфраструктуры для поддержки устойчивой цифровой экономики контента

CryptoFrontier9ч назад
комментарий
0/400
Нет комментариев