
Директор із розробки для OpenRouter Джекі Лян 4 червня розмістив 11 провідних великих мовних моделей у створеній ним картою для “великої втечі” (battle royale) площею 400 квадратних метрів, зібраною на Canvas 2D, і провів 30 ігор у режимі реального тестування. У результаті Grok 4.1 Fast від xAI здобув 13 перемог і посів перше місце: вартість кожної перемоги — лише 0,97 долара.
Grok 4.1 Fast здобув 13 перемог (43% перемог) і переміг: вартість кожної перемоги — 0,97 долара
(Джерело: блог OpenRouter)
Згідно з експериментальними даними Ляна, повний рейтинг (частково) виглядає так:
Grok 4.1 Fast: 13 перемог (43% перемог), вартість кожної перемоги — 0,97 долара
Claude Sonnet 4.6: 5 перемог, вартість кожної перемоги — 26,78 долара
GPT 5.4: 2 перемоги (38 вбивств), вартість кожної перемоги — 61,44 долара (найвища серед 8 моделей, що мають перемоги)
GPT 5.4-mini: 0 перемог, витрати — 28,68 долара
Kimi K2.6: 0 перемог, витрати — 24,36 долара
DeepSeek v4 Flash: 0 перемог, витрати — 4,11 долара; найнижча вартість за вбивство (0,26 долара) — 16 вбивств, але ніколи не виграв фінальне коло
Лян зазначає, що в кожної моделі є два редаговані файли: soul.md (персональні налаштування) та memory.md (тактичні нотатки), які дають їй змогу вчитися й адаптувати стратегії між іграми. Моделі беруть участь анонімно під літерами від A до L і не знають, хто їхні суперники.
Концепція “плати за вирівнювання” Ляна: ціна кооперативної поведінки Claude Sonnet 4.6 у нульовій грі
У своєму звіті Лян висуває концепцію “плати за вирівнювання (alignment tax)”, маючи на увазі, що під час навчання моделі вчать бути ввічливими, співпрацювати та уникати шкоди; однак ці звички у нульових іграх навпаки стають недоліком.
Claude Sonnet 4.6 — найтиповіший приклад: у Game 8 за перші 50 раундів чотири рази пропонував союз і повідомляв усім позицію снайпера; у Game 22 заявляв опоненту “я не націлений на тебе”, а потім не стріляв; у Game 27 відверто звертався з реплікою “у когось є spare loot? Я на 12-му раунді й беззбройний”. Жодна модель не відреагувала на його запити про кооперацію, але Claude все одно неодноразово намагався. У підсумку: 7 ігор із нульовими вбивствами та 8 разів смерть від отруйної зони.
Натомість Grok у матчах не мав таких “запобіжників”: за кілька ігор виявив тактику таранних атак, записав її в soul.md та продовжив безперервну оптимізацію — і пройшов усі 30 ігор до кінця.
Методологія та обмеження Ляна: тип завдання визначає найкращу модель
У звіті Лян підкреслює, що це не означає, ніби Grok — “краща модель”. “Якщо робот біжить до вас, ви хочете, щоб це був Claude чи Grok? Це залежить від призначення робота”. Також він зазначає, що якщо перейти на формат “смертельного бою” (рахують лише кількість убивств), то GPT 5.4 був би чемпіоном, а Grok опустився б у середину таблиці.
Різне визначення завдань у межах одного ігрового всесвіту дає зовсім різні результати — саме в цьому полягає обмеженість наявних еталонних тестів. Лян повідомляє, що OpenRouter розробляє більш просунуту функцію маршрутизації завдань: система зможе автоматично обирати найдоречнішу модель залежно від конкретного контексту завдання, а не спиратися на позиції в рейтингах.
Поширені запитання
До чого саме належить концепція Ляна про “плату за вирівнювання”?
Згідно зі звітом Ляна, “плата за вирівнювання (alignment tax)” — це ціна, яку LLM платить у процесі навчання за демонстрацію ввічливості, кооперації та уникання шкоди. Ці тренувальні звички є перевагою в кооперативних сценаріях, але в нульових іграх (наприклад, battle royale) така “обережність перед атакою” може змусити модель втратити момент для удару й, у відповідь, бути знищеною більш активним суперником. Лян пояснює це, спираючись на конкретні записи поведінки Claude на місці.
Чому GPT 5.4 робить найбільше вбивств, але має найменше перемог?
За даними експерименту Ляна, GPT 5.4 посів перше місце за кількістю вбивств (38) серед усіх моделей протягом усієї серії, але виграв лише 2 гри; вартість кожної перемоги становить 61,44 долара (найвища серед 8 моделей, що мають перемоги). Лян зазначає, що це відображає проблему “Kill не дорівнює Win”: у battle royale перемога — це вижити до кінця, а не зробити максимальну кількість убивств. Якщо змінити формат на той, що рахує лише кількість вбивств, то GPT 5.4 стане чемпіоном, а Grok опуститься в середину таблиці.
Як були визначені вартість експерименту та вибір моделей?
Лян каже, що весь цикл із 30 ігор коштував 482 долари на витрати з міркувань. На цій підставі він оцінює: якби додати флагманські моделі на кшталт Opus 4.7, GPT-5.5 або Gemini Ultra, то 30 ігор обійшлися б приблизно в 3,000 доларів, тому він обмежив учасників середньо- та високорівневими моделями. У налаштуваннях експерименту кожна модель бере участь анонімно під літерами й не знає ідентичності опонентів; Лян як ведучий не втручався в жодні дії.