Цей документ від Стенфордського та Гарвардського університетів пояснює, чому більшість систем «агентного ШІ» здаються вражаючими під час демонстрацій, але повністю руйнуються у реальному використанні.


Він називається «Адаптація агентного ШІ» і є найважливішою статтею, яку я читав цього року.
Зараз усі зосереджені на створенні автономних агентів. Ми даємо їм інструменти, пам’ять і ціль, і очікуємо, що вони виконають нашу роботу.
Але при впровадженні у реальний світ вони галюцинують виклики інструментів. Вони не справляються з довгостроковим плануванням. Вони ламаються.
Ось чому:
Ми намагаємося вмістити все навчання у мозок ШІ.
Коли розробники намагаються виправити зламаного агента, вони зазвичай просто донастроюють основну модель для отримання кращих кінцевих відповідей.
Дослідники виявили фатальну помилку в цьому підході.
Якщо ви винагороджуєте ШІ лише за правильну кінцеву відповідь, він стає лінивим.
Він буквально навчається припиняти використовувати свої інструменти. Він намагається вгадати відповідь замість того, щоб виконати роботу. Він ігнорує калькулятор і намагається зробити математику в голові.
Щоб це виправити, дослідники розробили нову 4-частинну структуру для того, як агенти мають справді навчатися.
І найбільший висновок повністю змінює поточну парадигму.
Замість постійного повторного навчання величезного, дорогого «мозку» агента, найнадійніші системи роблять навпаки.
Вони заморожують мозок. І адаптують інструменти.
Вони називають це Адаптацією інструментів під керівництвом агента.
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити