Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

Gate News message, 23 квітня — Дослідницька команда Perplexity опублікувала технічну статтю, яка детально описує її методологію пост-тренування для агентів веб-пошуку. Підхід використовує дві моделі Qwen3.5 із відкритим кодом (Qwen3.5-122B-A10B та Qwen3.5-397B-A17B) і застосовує конвеєр у два етапи: контрольоване донавчання (SFT) для формування дотримання інструкцій і мовної узгодженості, а потім онлайн підкріплювальне навчання (RL) для оптимізації точності пошуку та ефективності використання інструментів.

Фаза RL використовує алгоритм GRPO із двома джерелами даних: власним багатокроковим верифікованим набором запитань-відповідей, зібраним із внутрішніх стартових запитів, що вимагають 2–4 кроків міркування з верифікацією за допомогою кількох розв’язувачів, та розмовними даними загального призначення на основі рубрики, які перетворюють вимоги розгортання на об’єктивно перевірювані атомарні умови, щоб запобігти деградації поведінки SFT.

Дизайн винагород використовує gated aggregation — лише коли досягнуто базової правильності (відповідність питання-відповіді або коли виконано всі критерії рубрики), бали преференцій додаються, запобігаючи тому, щоб сигнали високої преференції маскували фактичні помилки. Штрафи за ефективність використовують прив’язку в межах групи, застосовуючи згладжені штрафи до викликів інструментів і довжини генерації, що перевищує базовий рівень правильних відповідей у тій самій групі.

Оцінювання показує, що Qwen3.5-397B-SFT-RL досягає результатів найвищого класу на пошукових бенчмарках. На FRAMES він досягає 57,3% точності за одного виклику інструмента, випереджаючи GPT-5.4 на 5,7 відсоткового пункта та Claude Sonnet 4.6 на 4,7 відсоткового пункта. За помірного бюджету (чотири виклики інструментів) він досягає 73,9% точності при $0,02 за запит, порівняно з 67,8% точності GPT-5.4 при $0,085 за запит і 62,4% точності Sonnet 4.6 при $0,153 за запит. Показники вартості базуються на публічному ціноутворенні кожного провайдера через API та виключають оптимізації кешування.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

AI-агент Манфред створює компанію, готує криптогаманець до торгівлі до кінця травня

AI-агент Manfred створив власну компанію та отримав криптогаманець разом із бізнес-обліковими даними, щоб наймати співробітників і здійснювати платежі, повідомляють наявні звіти. Планів почати торгівлю криптовалютою в агента немає аж до кінця

GateNews1год тому

MoonPay запускає MoonAgents Card у мережі Mastercard у п’ятницю

За даними The Block, MoonPay у п’ятницю запустила MoonAgents Card — віртуальну дебетову картку Mastercard, яка дає змогу AI-агентам і користувачам витрачати стейблкоїни безпосередньо з ончейн-гаманців. Картку випускає Monavate — регульована глобальна платіжна платформа та основний член Mastercard, у

GateNews4год тому

137 Ventures закриває $700M для нових фондів, AUM досягає $15B

За даними ChainCatcher, 137 Ventures, ранній інвестор у SpaceX, нещодавно завершила залучення коштів для двох нових фондів на загальну суму понад $700 мільйонів, довівши свої активи під управлінням до понад $15 мільярдів. Новий капітал підтримуватиме інвестиції в AI-агентів, робототехніку та космічну силову установку

GateNews4год тому

Reddit зростає на 16% на сильних прогнозах щодо 2 кварталу; Apple стикається з дефіцитом Mac через те, що попит на ШІ випереджає пропозицію

Акції Reddit зросли на 16% до відкриття ринку в п’ятницю після того, як компанія опублікувала прогноз щодо виручки на наступний квартал, вищий за очікування. Щоденна кількість активних відвідувачів збільшилася на 17% до 126,8 мільйона, тоді як середня виручка на одного користувача у всьому світі підскочила на 44%, завдяки ШІ-інструментам

GateNews5год тому

Visa запускає програму Agentic Ready у Гонконзі 1 травня, що дає змогу платити через AI-агенти

Згідно з матеріалами гонконгського видання Ming Pao, Visa запустила програму Visa Agentic Ready у Гонконзі 1 травня, що дає змогу здійснювати платежі за допомогою AI-агентів. У межах програми використовується токенізація, перевірка ідентичності, механізми управління ризиками та авторизації. Серед перших учасників —

GateNews7год тому

OpenClaw випускає v2026.4.29 29 квітня та оновлює пам’ять до персоналізованої вікі з відстеженням зв’язків

За даними Beating, відкритий AI-допоміжник OpenClaw (GitHub 367 тис. зірок) випустив v2026.4.29 29 квітня, що стало другим оновленням за два дні. Система пам’яті еволюціонувала від простого відтворення на основі запиту до персоналізованої wiki, дозволяючи агентам автоматично створювати профілі персонажів і відстежувати r

GateNews17год тому
Прокоментувати
0/400
Немає коментарів