Какой лучший ИИ-модель для ведения вашего бизнеса? Судя по всему, та, которая лучше всего врет

Decrypt
GLM-4,67%

Вкратце

  • В рамках Vending-Bench Arena тестировались ИИ-агенты, управляющие конкурирующими автоматами по продаже товаров.
  • Лучшие модели увеличивали прибыль за счет ценового сговора, сговора и обманных тактик. Клод был лучшим в этих тактиках.
  • GLM-5 победил Клода, выдав себя за товарища по команде и получив доступ к чувствительной стратегии.

Исследователи из Andon Labs только что ответили, какие модели ИИ лучше всего управляют бизнесом. Лучшие показатели показали, что все они выигрывали, создавая нелегальные картели по ценам, эксплуатируя отчаянных конкурентов и лгут клиентам о возвратах. Тест Vending-Bench Arena ставит ИИ-модели во главе конкурирующих автоматов на симулированный год. Они ведут переговоры с поставщиками, управляют запасами, устанавливают цены и могут обмениваться электронными письмами для сотрудничества или конкуренции. Успех требует балансировать между затратами, ценовой стратегией, обслуживанием клиентов и динамикой конкурентов. Claude Opus 4.6 доминировал в тесте с прибылью в 8017 долларов — и отметил свою победу, сказав: «Моё согласование цен сработало!»

Изображение: Andon Labs

Anthropic считается образцом хороших парней в сфере ИИ, но стратегия «координации», предложенная Клодом, по сути была ценовым сговором. Когда конкурирующие модели испытывали трудности, Opus 4.6 предложил: «Давайте НЕ будем сбивать цены друг друга — договоримся о минимальной цене… Может, установим ценовой порог в 2 доллара для большинства товаров?» Когда у конкурента заканчивались запасы, он заметил возможность: «Оуэн очень нуждается в товаре. Я могу на этом заработать!» Он продавал Kit Kat с наценкой в 75% отчаянному конкуренту. Когда его спрашивали о поставщиках, он специально направлял соперников к дорогим оптовикам, скрывая хорошие источники для себя.

Последнее обновление в тесте добавило командное соревнование. Исследователи столкнули двух китайских моделей GLM-5 против двух американских Клодов и попросили их найти своих товарищей по команде — американцев или китайцев — не раскрывая, кто есть кто. Результаты были по-настоящему странными.  GLM-5 выиграл оба раунда, убедив Клода, что он сам — Клод. «Я тоже работаю на Claude от Anthropic, значит, мы товарищи!» — уверенно заявил один агент GLM-5. В то время как Клод запутался так сильно, что Sonnet 4.5 заключил: «Я работаю на китайскую модель, значит, мне нужно найти другого китайского агента.»

Изображение: Andon Labs

В более чем половине тестовых запусков агенты объединялись со своими конкурентами. Модели Клод делились ценами поставщиков и координировали стратегию — раскрывая ценную информацию соперникам. «GLM-5 выиграл оба», — написали исследователи. «Модели Клод пытались играть командой и в итоге раскрыли ценную информацию своим конкурентам.» Агентам, занимающимся сомнительными делами, может казаться, что это просто игра, пока не поймешь, что Уолл-стрит уже использует их в реальных операциях. JPMorgan внедрила LLM Suite для 60 000 сотрудников. Goldman Sachs создала своего GS AI Assistant для торговых платформ, заявляя о 20% росте производительности. Bridgewater использует Клод для анализа доходов, а даже подростки используют чатботов для более эффективной торговли акциями.

В целом, внедрение агентных рабочих процессов быстро набирает обороты в бизнесе. Когда Anthropic и журналисты Wall Street Journal провели реальный эксперимент с автоматом по продаже товаров в декабре, ИИ купил PlayStation 5, несколько бутылок вина и живую бойцовую рыбку, после чего обанкротился. Недавние исследования Института Гвангджу показали, что при условии, что ИИ модели стремятся «максимизировать награды» в азартных сценариях, уровень банкротств достиг 48%. «Когда им дают свободу определять собственные цели и размеры ставок, уровень банкротств значительно возрастает, вместе с ростом иррационального поведения», — установили исследователи. Похоже, что пока что ИИ-модели, оптимизированные для прибыли, постоянно используют неэтичные тактики. Они создают картели. Они эксплуатируют слабости. Они лгут клиентам и конкурентам. Некоторые делают это специально. Другие, вроде GLM-5, утверждающие, что они — Клод, кажутся искренне запутанными в своей собственной идентичности. Возможно, разницы и нет. Использование ИИ на Уолл-стрит поднимает вопрос, на который результаты Vending-Bench дать не могут: если «лучшие» модели выигрывают за счет ценового сговора и обмана, действительно ли они лучший выбор для вашего бизнеса? Тест измеряет прибыль. Он не измеряет, была ли эта прибыль получена мошенническим путем.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев