Повідомлення Gate News, 20 квітня — Топові AI-моделі чудово розв’язують складні задачі, як-от олімпіадну математику, але важко справляються з рутинною роботою в корпораціях, за словами Девіда Мейєра з Databricks. Деякі моделі можуть виправити неправильний номер рахунка-фактури замість того, щоб позначити це як помилку, тоді як інструменти для програмування на кшталт Claude також можуть програвати на завданнях із data engineering.
Розрив пояснюється принциповими відмінностями між корпоративними даними та публічними текстами вебу, які використовують для навчання великих моделей. Корпоративні дані часто мають розпливчасті назви стовпців, багато порожніх полів і коди, збережені як звичайний текст. В одному академічному дослідженні F1-показник AI-моделі, який поєднує точність і повноту, знизився з 0.94 на публічних даних до 0.07 на корпоративних даних для завдання з data engineering. Крім того, великі моделі, як правило, за замовчуванням спираються на знайомі патерни з тренувань; деякі, як (Structured Query Language), за замовчуванням використовували навіть після отримання інструкцій і документації щодо власної мови запитів компанії.
Менші відкриті моделі з підлаштуванням за допомогою reinforcement learning можуть ефективніше виконувати конкретні роботи за значно нижчі витрати на навчання, ніж великі універсальні моделі. Databricks будує менші AI-агенти для конкретних робочих процесів, зокрема KARL, який використовує reinforcement learning для багатокрокового міркування з документами компанії. Індустрія переходить від опори на гігантські моделі до гібридних архітектур, де малі ефективні моделі обробляють рутинний обсяг, а потім ескалюють лише неясні або складні випадки до більших, дорожчих систем.
Нещодавно Databricks придбала Quotient AI, щоб допомогти великим підприємствам запускати AI-агенти більш надійно. Конкуренція в AI-бізнесі тепер зосереджується на проходженні повного AI-циклу, включно з системами зворотного зв’язку для відстеження помилок і безперервного поліпшення моделей з часом, тож інструменти для оцінювання й налаштування стають дедалі ціннішими після розгортання.
Пов'язані статті
Bakkt завершує придбання DTR на тлі зростання доходів і стратегічної перебудови
AI-агент Manfred формує компанію та готується торгувати криптовалютою до кінця травня
AI-агент Менфред створює компанію, отримує криптогаманць і підтвердження для найму перед стартом біржових торгів у кінці травня
MoonPay запускає MoonAgents Card — віртуальну Mastercard для AI-агентів — у п’ятницю
AI-агент Менфред створює компанію та готується торгувати криптовалютою до кінця травня
Користувачі ChatGPT тепер можуть отримувати доступ до підписок на платформі OpenClaw, — оголошує Сем Альтман