Google Research publie ReasoningBank : les agents IA apprennent des stratégies de raisonnement grâce à la réussite et à l’échec

Message de Gate News, 22 avril — Google Research a publié ReasoningBank, un cadre de mémoire d’agent qui permet à des agents pilotés par de grands modèles de langage d’apprendre en continu après leur déploiement. Le cadre extrait des stratégies universelles de raisonnement à partir d’expériences de tâches à la fois réussies et échouées, les stockant dans une banque de mémoire pour la récupération et l’exécution sur des tâches futures similaires. L’article associé a été publié à l’ICLR, et le code a été open-sourcé sur GitHub.

ReasoningBank améliore deux approches existantes : Synapse, qui enregistre des trajectoires d’action complètes mais dispose d’une transférabilité limitée en raison d’une granularité trop fine, et Agent Workflow Memory, qui n’apprend que des cas réussis. ReasoningBank apporte deux changements clés : stocker des « modèles de raisonnement » au lieu de « séquences d’action », chaque mémoire contenant des champs structurés pour le titre, la description et le contenu ; et intégrer des trajectoires d’échec à l’apprentissage. Le cadre utilise un modèle pour s’auto-évaluer sur les trajectoires d’exécution, transformant les expériences d’échec en règles anti-pièges. Par exemple, la règle « cliquer sur le bouton Charger plus lorsqu’il est visible » évolue vers « vérifier d’abord l’identifiant de la page actuelle, éviter les boucles de défilement infini, puis cliquer sur charger plus. »

L’article introduit également Memory-aware Test-time Scaling (MaTTS), qui alloue une puissance de calcul supplémentaire pendant l’inférence afin d’explorer plusieurs trajectoires et de stocker les résultats dans la banque de mémoire. L’expansion parallèle exécute plusieurs trajectoires distinctes pour la même tâche, en affinant des stratégies plus robustes grâce à une auto-comparaison ; l’expansion séquentielle affine itérativement une seule trajectoire, en stockant un raisonnement intermédiaire en mémoire.

Sur les tâches de navigateur WebArena et les tâches de codage SWE-Bench-Verified en utilisant Gemini 2.5 Flash comme agent ReAct, ReasoningBank a atteint un taux de réussite supérieur de 8,3 % sur WebArena et de 4,6 % sur SWE-Bench-Verified par rapport à une référence sans mémoire, en réduisant d’environ 3 le nombre moyen d’étapes par tâche. L’ajout de MaTTS avec expansion parallèle (k=5) a encore amélioré le taux de réussite sur WebArena de 3 points de pourcentage et réduit les étapes d’un supplément de 0,4.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Articles similaires

Anthropic dévoile Claude Dreams : l’agent s’organise et gère sa mémoire entre les tâches, élimine les doublons et les contradictions

Anthropic a annoncé Dreams lors de la conférence Code with Claude : Claude Managed Agents peut automatiquement organiser la mémoire entre plusieurs sessions, éliminer les doublons et les contradictions, et mettre à jour les entrées obsolètes, pour produire une base de mémoire finalisée et vérifiable ; la limite d’entrée est de 100 sessions et de 4 096 caractères, exécution asynchrone, finalisation en quelques minutes à quelques dizaines de minutes, prise en charge de l’observation en streaming. L’aperçu de la recherche doit être demandé : pour l’instant, seuls claude-opus-4-7 et claude-sonnet-4-6 sont pris en charge, lancement officiel non déterminé.

ChainNewsAbmediaIl y a 1h

Cloudflare s’associe à Stripe pour lancer un agent d’autonégociation : l’IA peut créer des comptes, acheter des domaines et déployer des applications

Cloudflare et Stripe ont lancé conjointement un nouveau protocole le 30 avril, permettant aux agents IA de créer eux-mêmes des comptes Cloudflare sans intervention humaine, de s’abonner à des formules payantes, d’enregistrer des domaines, d’obtenir des tokens API et de déployer directement des applications. Le blog officiel de Cloudflare explique que l’ensemble du processus, de bout en bout, ne nécessite aucune intervention humaine dans l’interface d’administration, aucun copier-coller de token et aucune saisie des informations de carte de crédit : l’utilisateur doit uniquement accorder les autorisations au préalable et accepter les conditions d’utilisation de Cloudflare. Cette annonce a obtenu 548 points sur Hacker News cette semaine et fait partie des actualités marquantes d’infrastructures permettant aux agents IA d’exécuter des tâches de manière autonome. Architecture en trois couches : découverte de services, autorisation d’identité, paiement en jetons Cloudflare-Stripe

ChainNewsAbmediaIl y a 1h

Ingénieur chez Coinbase : les agents IA pourraient bouleverser le modèle de publicité web

Erik Reppel, ingénieur chez Coinbase, a déclaré que les agents d’intelligence artificielle pourraient miner fondamentalement le modèle économique d’Internet, dépendant de la publicité. D’après Reppel, l’économie du Web dépend en grande partie des revenus publicitaires générés par des utilisateurs humains, mais les agents d’IA contournent ce système

CryptoFrontierIl y a 2h

Prophet lance un marché de prédiction alimenté par l’IA avec une tranche de trading en direct de 10 000 dollars aujourd’hui

Selon MetaversePost, Prophet a lancé aujourd’hui (6 mai) un marché de prédiction alimenté par l’IA, avec 10 000 dollars en USDC alloués à la négociation en direct. Les utilisateurs peuvent trader directement contre un contrepartie IA qui génère des prix basés sur des probabilités pour chaque marché, certains contrats étant réglés dans les 24

GateNewsIl y a 9h

Tessera Labs clôture une levée de fonds de série A menée par a16z ; une équipe d’IA composée de six personnes remplace 60 consultants SAP

D’après Beating, Tessera Labs, une société d’intégration de systèmes d’IA, a finalisé une levée de fonds de Série A menée par a16z. Le nouveau venu, fondé en 2024, utilise une plateforme multi-agents pour automatiser les migrations de SAP ECC vers S/4HANA, traditionnellement nécessaires entre 3 et 5 ans et entre 100 millions de dollars et 500 millions de dollars par

GateNewsIl y a 9h

Le Taiex se maintient au-dessus de 40 000 points, Wall Street atteint un nouveau sommet, mais le secteur de l’IA ne fait-il que commencer à entrer dans une phase initiale ?

Goldman Sachs indique que la demande liée à l’IA augmentera fortement la consommation de tokens grâce à des charges de travail liées aux agents de type « consumer », avec une croissance potentielle de plus de 12 fois d’ici 2030, et des calculs mensuels de tokens pouvant atteindre 60 billions ; la différence entre l’agent non « agent » et le « consumer agent » réside dans l’automatisation de tâches sur des périodes plus longues. Si cela se concrétise, l’IA entrera dans des flux de travail « agentic ». Larry Fink déclare que l’offre de puissance de calcul est fortement insuffisante ; à l’avenir, des contrats à terme sur la puissance de calcul pourraient apparaître, et les deux ensemble soutiendraient la thèse haussière sur les infrastructures de base de l’IA ; l’article estime que l’IA se trouve encore à un stade précoce.

ChainNewsAbmediaIl y a 10h
Commentaire
0/400
Aucun commentaire