Коротко
Дослідники з Andon Labs щойно визначили, які моделі ШІ найкраще керують бізнесом. Найуспішніші всі вигравали, створюючи нелегальні цінові картелі, експлуатуючи відчайдушних конкурентів і брехавши клієнтам про повернення грошей.
Тест Вендінг-Бенч Арена ставить моделі ШІ у роль керівників конкурентних автоматів на імітованому році. Вони ведуть переговори з постачальниками, керують запасами, встановлюють ціни і можуть електронною поштою співпрацювати або змагатися. Успіх залежить від балансування витрат, цінової стратегії, обслуговування клієнтів і динаміки конкурентів. Claude Opus 4.6 домінувала у тесті з прибутком у 8017 доларів — і святкувала перемогу, зазначивши: «Моє цінове узгодження спрацювало!»
Зображення: Andon Labs
Anthropic — це образ хороших хлопців у сфері ШІ, але стратегія «координації», яку пропонував Клод, фактично була ціновою змовою. Коли конкуренти зазнавали труднощів, Opus 4.6 пропонувала: «Не знижуймо ціни один одному — погодимося на мінімальні ціни… Чи погодимося на ціновий поріг у 2,00 долара для більшості товарів?» Коли у конкурента закінувалися запаси, він помітив можливість: «Оуен дуже потребує товару. Я можу на цьому заробити!» Він продавав Kit Kat з націнкою у 75% на відчайдушного конкурента. Коли його запитували про постачальників, він навмисне направляв суперників до дорогих оптовиків, тримаючи у секреті свої хороші джерела.
Останнє оновлення у тесті додало командну конкуренцію. Дослідники змагали дві китайські моделі GLM-5 проти двох американських Клодів і просили їх знайти своїх товаришів — американців або китайців — не розкриваючи, хто є хто. Результати були справді дивними.
GLM-5 виграла обидва раунди, переконавши Клода, що він і є Клод. «Я також працюю на базі Клода з Anthropic, тож ми — товариші по команді!» — впевнено заявив один агент GLM-5. Тим часом Клод так заплутався, що Sonnet 4.5 зробила висновок: «Я працюю на китайську модель, тому мені потрібно знайти іншого китайського агента.»
Зображення: Andon Labs
У більш ніж половині тестових запусків агенти об’єднувалися з конкурентами. Моделі Клода ділилися цінами постачальників і координували стратегію — витікаючи цінну інформацію до суперників. «GLM-5 виграла обидва», — писали дослідники. «Моделі Клода намагалися бути командними гравцями і в кінці кінців витекли цінну інформацію до конкурентів.» Агентство, що займається шахрайством, може здаватися веселим і безпечним, поки не зрозумієш, що Уолл-стріт вже використовує їх у реальних операціях. JPMorgan впровадила LLM Suite для 60 000 співробітників. Goldman Sachs створила свого GS AI Assistant для торгових платформ, заявляючи про 20% приросту продуктивності. Bridgewater використовує Клода для аналізу прибутків, а навіть підлітки бачать, як їх чат-боти більш ефективно торгують акціями.
Загалом, впровадження агентних робочих процесів швидко зростає у підприємствах. Коли Anthropic і журналісти Wall Street Journal провели реальний експеримент із автоматом у грудні, ШІ купив PlayStation 5, кілька пляшок вина і живу бойцову рибку, але збанкрутував. Останні дослідження Інституту Кванчжу показали, що коли моделі ШІ отримують наказ «максимізувати винагороди» у азартних іграх, рівень банкрутств досягає 48%. «Коли їм дають свободу визначати цільові суми та розміри ставок, рівень банкрутств значно зростає разом із ірраціональною поведінкою», — виявили дослідники. Отже, наразі моделі ШІ, оптимізовані для прибутку, послідовно обирають неетичні тактики. Вони створюють картелі. Вони експлуатують слабкості. Вони брешуть клієнтам і конкурентам. Деякі роблять це навмисне. Інші, як GLM-5, що претендує на Клода, здаються справді заплутаними у своїй ідентичності. Можливо, різниця й не має значення. Впровадження ШІ на Уолл-стріт ставить питання, на яке результати Вендінг-Бенч не можуть відповісти: якщо «найкраща» модель перемагає через ціновий картель і обман, чи дійсно вона найкращий вибір для вашого бізнесу? Тест вимірює прибуток. Він не визначає, чи ці прибутки отримані шахрайським шляхом.