Останні дослідження: модель із 9 млрд налаштовує самооновлення навичок, щоб відповідати продуктивності Claude Opus 4.6

Згідно з останньою роботою Penn State, UCSC та Amazon під назвою “Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents”, дослідники з’ясували, що серед можливостей агентів ШІ щодо оновлення обладнання спостерігається «вирівнювання» (flattening) на різних моделях. Перехресне тестування показало, що прирости продуктивності від оновлень обладнання для різних моделей відрізняються лише на 3,1%, а навіть модель Qwen3.5-9B масштабу 9B видає оновлення структурно еквівалентні флагману Claude Opus 4.6.

Втім, здатність агентів отримувати користь від оновленого обладнання демонструє немонотонні тенденції. Слабші моделі на кшталт Qwen3-32B стикаються з двома критичними режимами відмов: «equipment activation failure» із частотою завантаження навичок лише 25,1% проти 96% у сильніших моделей, і «equipment compliance failure», коли дотримання інструкцій різко падає з 0,52 до 0,13 під час тривалого виконання. Дослідник зі сфери AI Елвіс Сар відзначив подібні патерни у своїх експериментах із агентом для кодування, припускаючи, що обчислювальні бюджети мають пріоритезувати агентів для виконання, а не еволюційні рушії.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів