Експериментальне тестування LLM від OpenRouter у «великій битві»: Grok 4.1 Fast здобув перемогу з 13 перемогами

2026-06-18 02:19:46

Директор із розробки для OpenRouter Джекі Лян 4 червня розмістив 11 провідних великих мовних моделей у створеній ним картою для “великої втечі” (battle royale) площею 400 квадратних метрів, зібраною на Canvas 2D, і провів 30 ігор у режимі реального тестування. У результаті Grok 4.1 Fast від xAI здобув 13 перемог і посів перше місце: вартість кожної перемоги — лише 0,97 долара.

Grok 4.1 Fast здобув 13 перемог (43% перемог) і переміг: вартість кожної перемоги — 0,97 долара

(Джерело: блог OpenRouter)

Згідно з експериментальними даними Ляна, повний рейтинг (частково) виглядає так:

Grok 4.1 Fast: 13 перемог (43% перемог), вартість кожної перемоги — 0,97 долара

Claude Sonnet 4.6: 5 перемог, вартість кожної перемоги — 26,78 долара

GPT 5.4: 2 перемоги (38 вбивств), вартість кожної перемоги — 61,44 долара (найвища серед 8 моделей, що мають перемоги)

GPT 5.4-mini: 0 перемог, витрати — 28,68 долара

Kimi K2.6: 0 перемог, витрати — 24,36 долара

DeepSeek v4 Flash: 0 перемог, витрати — 4,11 долара; найнижча вартість за вбивство (0,26 долара) — 16 вбивств, але ніколи не виграв фінальне коло

Лян зазначає, що в кожної моделі є два редаговані файли: soul.md (персональні налаштування) та memory.md (тактичні нотатки), які дають їй змогу вчитися й адаптувати стратегії між іграми. Моделі беруть участь анонімно під літерами від A до L і не знають, хто їхні суперники.

Концепція “плати за вирівнювання” Ляна: ціна кооперативної поведінки Claude Sonnet 4.6 у нульовій грі

У своєму звіті Лян висуває концепцію “плати за вирівнювання (alignment tax)”, маючи на увазі, що під час навчання моделі вчать бути ввічливими, співпрацювати та уникати шкоди; однак ці звички у нульових іграх навпаки стають недоліком.

Claude Sonnet 4.6 — найтиповіший приклад: у Game 8 за перші 50 раундів чотири рази пропонував союз і повідомляв усім позицію снайпера; у Game 22 заявляв опоненту “я не націлений на тебе”, а потім не стріляв; у Game 27 відверто звертався з реплікою “у когось є spare loot? Я на 12-му раунді й беззбройний”. Жодна модель не відреагувала на його запити про кооперацію, але Claude все одно неодноразово намагався. У підсумку: 7 ігор із нульовими вбивствами та 8 разів смерть від отруйної зони.

Натомість Grok у матчах не мав таких “запобіжників”: за кілька ігор виявив тактику таранних атак, записав її в soul.md та продовжив безперервну оптимізацію — і пройшов усі 30 ігор до кінця.

Методологія та обмеження Ляна: тип завдання визначає найкращу модель

У звіті Лян підкреслює, що це не означає, ніби Grok — “краща модель”. “Якщо робот біжить до вас, ви хочете, щоб це був Claude чи Grok? Це залежить від призначення робота”. Також він зазначає, що якщо перейти на формат “смертельного бою” (рахують лише кількість убивств), то GPT 5.4 був би чемпіоном, а Grok опустився б у середину таблиці.

Різне визначення завдань у межах одного ігрового всесвіту дає зовсім різні результати — саме в цьому полягає обмеженість наявних еталонних тестів. Лян повідомляє, що OpenRouter розробляє більш просунуту функцію маршрутизації завдань: система зможе автоматично обирати найдоречнішу модель залежно від конкретного контексту завдання, а не спиратися на позиції в рейтингах.

Поширені запитання

До чого саме належить концепція Ляна про “плату за вирівнювання”?

Згідно зі звітом Ляна, “плата за вирівнювання (alignment tax)” — це ціна, яку LLM платить у процесі навчання за демонстрацію ввічливості, кооперації та уникання шкоди. Ці тренувальні звички є перевагою в кооперативних сценаріях, але в нульових іграх (наприклад, battle royale) така “обережність перед атакою” може змусити модель втратити момент для удару й, у відповідь, бути знищеною більш активним суперником. Лян пояснює це, спираючись на конкретні записи поведінки Claude на місці.

Чому GPT 5.4 робить найбільше вбивств, але має найменше перемог?

За даними експерименту Ляна, GPT 5.4 посів перше місце за кількістю вбивств (38) серед усіх моделей протягом усієї серії, але виграв лише 2 гри; вартість кожної перемоги становить 61,44 долара (найвища серед 8 моделей, що мають перемоги). Лян зазначає, що це відображає проблему “Kill не дорівнює Win”: у battle royale перемога — це вижити до кінця, а не зробити максимальну кількість убивств. Якщо змінити формат на той, що рахує лише кількість вбивств, то GPT 5.4 стане чемпіоном, а Grok опуститься в середину таблиці.

Як були визначені вартість експерименту та вибір моделей?

Лян каже, що весь цикл із 30 ігор коштував 482 долари на витрати з міркувань. На цій підставі він оцінює: якби додати флагманські моделі на кшталт Opus 4.7, GPT-5.5 або Gemini Ultra, то 30 ігор обійшлися б приблизно в 3,000 доларів, тому він обмежив учасників середньо- та високорівневими моделями. У налаштуваннях експерименту кожна модель бере участь анонімно під літерами й не знає ідентичності опонентів; Лян як ведучий не втручався в жодні дії.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

16год тому

OpenAI випустила фреймворк для симуляцій розгортання, щоб прогнозувати ризики невідповідності GPT-5, медіанна похибка 1,5x

20год тому

xAI запускає Grok Imagine Video 1.5, скорочуючи час рендерингу 720p до 25 секунд із 40+ секунд

21год тому

OpenAI публікує дохід у $13,07 мільярда та чистий збиток у $38,53 мільярда за 2025 рік

Пов'язані статті

Після IPO SpaceX: Маск провів реструктуризацію акцій — конвертація багаторядних привілейованих у A-клас, продаж лише 11 390 акцій

Market Whisper1год тому

DeepSeek «три нерозв’язні питання» добігає кінця: Лян Веньфен вкладає 20 мільярдів, а таланти й обчислювальні потужності змушують до трансформації

Market Whisper1год тому

SpaceX купує Cursor на $60B для інвестиційного партнерства, яке, за словами інвесторів, є найкращою угодою з моменту появи Instagram

Oliver Grant21год тому

SpaceX витратила 60 млрд на купівлю Cursor, а її ринкова капіталізація тимчасово перевищила Microsoft

Market Whisper22год тому

ЗМІ: OpenAI 23 червня опублікує GPT-5.6, ціна буде значно нижчою, ніж у Claude Fable 5

Market Whisper06-17 01:40

Прокоментувати

0/400

Немає коментарів