发布新闻消息,4 月 23 日——Perplexity 的研究团队发表了一篇技术文章,详细介绍其面向网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT) 以建立指令遵循与语言一致性,然后通过在线强化学习 (RL) 来优化搜索准确性与工具使用效率。
RL 阶段使用 GRPO 算法并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,这些查询需要 2–4 跳推理,并通过多解算器验证;以及基于评分细则的通用对话数据,它将部署需求转换为客观可核查的原子条件,从而防止 SFT 行为退化。
奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入,即 (question-answer match 或所有评分细则条件都满足),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度超过同组中正确答案基线的部分施加平滑惩罚。
评估表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同类最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 的准确率,较 GPT-5.4 提高 5.7 个百分点,较 Claude Sonnet 4.6 提高 4.7 个百分点。在中等预算 (four tool calls) 下,它以每次查询 $0.02 的成本实现 73.9% 的准确率;相比之下,GPT-5.4 在每次查询 $0.085 下准确率为 67.8%,Sonnet 4.6 在每次查询 $0.153 下准确率为 62.4%。成本数据基于各提供方的公开 API 定价,并排除缓存优化。
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
تطلق Oobit بطاقات تأشيرة لوكلاء ذكاء اصطناعي تدعم الإنفاق المباشر باستخدام USDT
وفقاً لصحيفة The Block، أطلقت شركة Oobit، وهي شركة ناشئة لمحافظ مدعومة من Tether، اليوم بطاقات افتراضية تُسمى «Agent Cards» تتيح لوكلاء الذكاء الاصطناعي إنفاق USDT مباشرةً لدى التجار المدعومين من Visa دون تحويل عملة أو موافقات لكل معاملة. تُخصص كل بطاقة لوكيل واحد وتضم حدوداً للإنفاق
GateNewsمنذ 52 د
AethirClaw تطلق CARA، وكيلًا جاهزًا مسبقًا للذكاء الاصطناعي في مجال التشفير يمكن نشره خلال 5 دقائق، في 30 أبريل
وبحسب الإعلان الرسمي من AethirClaw في 30 أبريل، أطلقت الشركة CARA، وهو وكيل ذكاء اصطناعي تشفيري مُهيّأ مسبقًا يعمل على البنية التحتية اللامركزية لوحدات GPU من Aethir. ويضم المنصّة أكثر من 50 مهارة مدمجة تغطي مراقبة الأسواق في الوقت الحقيقي، وتتبع محافظ الحيتان، وعمليات على السلسلة
GateNewsمنذ 1 س
أضاف وكيل Hermes من Nous Research ميزة “القيّم” لضمّ المهارات غير المستخدمة تلقائياً وإيقافها بعد 30 يوماً
وفقاً لـ Nous Research، أضاف إطار عمل Hermes Agent ميزة Curator في 29 أبريل لإدارة دورة حياة المهارات تلقائياً. تعالج الميزة قيداً سابقاً كان يسمح لوكلاء الذكاء الاصطناعي بتكديس المهارات بلا حدود، ما يؤدي إلى تضخّم رسائل النظام دون إزالة المهارات غير المستخدمة.
Curator
GateNewsمنذ 3 س
جروك يطلق وضع تجريبي لوكيل Imagine مع لوحة غير متناهية لسير عمل إبداعي متعدد الخطوات
تبعاً لتقارير رصدتها Beating، يجري طرح النسخة الإلكترونية من Grok «Imagine Agent Mode (بيتا)»، وهي أداة جديدة قائمة على وكلاء مبنية على قدرات xAI الحالية لتوليد الصور والفيديو. يستبدل الواجهة نافذة المحادثة التقليدية بلوحة قماشية لا نهائية، ويتضمن أربع قوالب مهيأة مسبقاً
GateNewsمنذ 4 س
أصبحت Billions Network المنظومة الإيكولوجية لوكلاء بالمرتبة الثالثة من حيث الحجم مع نشر أكثر من 18,000 وكيل
وفقاً لـ BlockBeats، في 30 أبريل، أصبحت Billions Network المنظومة الوكيلة الثالثة الأكبر من حيث عدد عمليات النشر، متجاوزة شبكة Ethereum بما يزيد على 18,000 وكيل تم نشره. تحتل الشبكة المركزين خلف كل من BNB Chain وBase فقط. كما قامت Billions بمزامنة ميزة هوية الوكيل المُتحقق عبر w
GateNewsمنذ 6 س
ترابط شركة Ant International مع 150 مليون تاجر عبر مدفوعات مدعومة بالذكاء الاصطناعي
قالت Ant International إن شبكة مدفوعاتها تربط أكثر من 150 مليون تاجر بأكثر من 2 مليار حساب للمستهلكين حول العالم، مع دعم أكثر من 300 طريقة دفع عبر 220 سوقاً.
وتتعامل الشركة مع أكثر من 20 مليون معاملة يومياً بمتوسط، وتقوم بتوسيع نطاقها في أنحاء آسيا،
CryptoFrontierمنذ 10 س