رسالة أخبار البوابة، 22 أبريل — أطلقت Google Research ReasoningBank، وهو إطار عمل لِـذاكرة الوكلاء يتيح لوكلاء مدفوعين بنماذج لغوية كبيرة التعلّم بشكل مستمر بعد النشر. يستخرج الإطار استراتيجيات استدلال عامة من تجارب المهام الناجحة والفاشلة على حد سواء، ويخزنها في "بنك ذاكرة" للاسترجاع والتنفيذ في مهام مستقبلية مماثلة. نُشرت الورقة البحثية ذات الصلة في ICLR، وتم فتح مصدر الكود على GitHub.

يُحسّن ReasoningBank نهجين قائمين: Synapse، الذي يسجل مسارات الإجراءات الكاملة لكنه يملك قابلية نقل محدودة بسبب الدقة الحبيبية، وAgent Workflow Memory، الذي يتعلم فقط من الحالات الناجحة. يُجري ReasoningBank تغيئين رئيسيين: تخزين "أنماط الاستدلال" بدلًا من "تسلسلات الإجراءات"، حيث تحتوي كل ذاكرة على حقول منظمة للعُنوان والوصف والمحتوى؛ وإدماج مسارات الفشل في التعلم. يستخدم الإطار نموذجًا لتقييم مسارات التنفيذ ذاتيًا، محوّلًا تجارب الفشل إلى قواعد لتجنّب الوقوع في المزالق. على سبيل المثال، تصبح القاعدة "انقر على زر تحميل المزيد عندما يتم رؤيته" "تحقق أولًا من مُعرّف الصفحة الحالية، وتجنب حلقات التمرير اللانهائي، ثم انقر على تحميل المزيد."

تُقدّم الورقة أيضًا Memory-aware Test-time Scaling (MaTTS)، التي تخصص قدرة حسابية إضافية أثناء الاستدلال لاستكشاف عدة مسارات وتخزين النتائج في بنك الذاكرة. يقوم التوسّع الموازي بتشغيل عدة مسارات مميزة للاتّكال نفسه، مما يصقل استراتيجيات أكثر متانة عبر المقارنة الذاتية؛ بينما يقوم التوسّع التسلسلي بتحسين مسار واحد بشكل تكراري، مع تخزين التفكير الوسيط في الذاكرة.

في مهام متصفح WebArena ومهام الترميز SWE-Bench-Verified باستخدام Gemini 2.5 Flash كوكيل ReAct، حقق ReasoningBank معدل نجاح أعلى بنسبة 8.3% على WebArena وأعلى بنسبة 4.6% على SWE-Bench-Verified مقارنةً بخط أساس دون ذاكرة، مع تقليل متوسط الخطوات لكل مهمة بحوالي 3. وبإضافة MaTTS مع التوسّع الموازي (k=5)، تحسّن كذلك معدل نجاح WebArena بمقدار 3 نقاط مئوية إضافية وانخفض عدد الخطوات بمقدار 0.4 أخرى.

عرض المصدر

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.

أخبار ذات صلة

04-22 07:51

AWS توسّع سير عمل الذكاء الاصطناعي متعدد العوامل، وتدعم Claude Opus 4.7 على Bedrock

04-22 06:41

0G Labs تتعاون مع Alibaba Cloud لتمكين وصول وكلاء الذكاء الاصطناعي على السلسلة إلى نموذج Qwen

04-22 02:41

Google تجمع أدوات برمجة الذكاء الاصطناعي تحت منصة Antigravity

04-22 01:21

OpenAI توسّع الشراكات مع Accenture وTCS لنشر Codex للعملاء من المؤسسات

04-22 01:11

Moonshot AI تطرح نموذج Kimi K2.6 مفتوح المصدر مع سير عمل لوكلاء متقدم

تحليل متعمق