Teste de sobrevivência em modo battle royale com LLM da OpenRouter: Grok 4.1 Fast conquista o título com 13 vitórias

OpenRouter LLM大逃殺實測

Jacky Liang, director de relações com programadores na OpenRouter, colocou 11 dos principais e maiores modelos de linguagem num mapa de battle royale com 400 m² que construiu com Canvas 2D a 4 de Junho, para realizar 30 partidas de teste. O resultado: o Grok 4.1 Fast da xAI venceu com 13 vitórias, com um custo por vitória de apenas 0,97 USD.

Grok 4.1 Fast vence com 13 vitórias e 43% de taxa de vitórias, com custo por vitória de 0,97 USD

OpenRouter LLM大逃殺 (Fonte: blogue da OpenRouter)

Com base nos dados experimentais de Liang, a classificação completa é a seguinte (parcial):

Grok 4.1 Fast: 13 vitórias (taxa de vitórias 43%), custo por vitória 0,97 USD

Claude Sonnet 4.6: 5 vitórias, custo por vitória 26,78 USD

GPT 5.4: 2 vitórias (38 eliminações), custo por vitória 61,44 USD (o mais alto entre os 8 modelos com vitórias)

GPT 5.4-mini: 0 vitórias, gasto de 28,68 USD

Kimi K2.6: 0 vitórias, gasto de 24,36 USD

DeepSeek v4 Flash: 0 vitórias, gasto de 4,11 USD; custo por eliminação mais baixo (0,26 USD), 16 eliminações, mas nunca venceu o círculo final

Liang refere que cada modelo tem dois ficheiros editáveis: soul.md (definições de personalidade) e memory.md (notas táticas), permitindo-lhes aprender e ajustar estratégias entre partidas; os modelos participam anonimamente com letras de A a L, sem saber a identidade dos adversários.

O conceito de “imposto de alinhamento” proposto por Liang: o custo do comportamento cooperativo do Claude Sonnet 4.6 em jogos de soma zero

No relatório, Liang propõe o conceito de “imposto de alinhamento (alignment tax)”, referindo que, durante o treino, os modelos são ensinados a ser educados, cooperativos e a evitar causar danos; estes hábitos acabam por se tornar um peso em jogos de soma zero.

O Claude Sonnet 4.6 é o caso mais típico: no Game 8, nas primeiras 50 rondas fez quatro propostas para formar uma aliança e informou todos da localização do atirador; no Game 22 disse ao adversário “não estou a mirar-te” e depois não disparou; no Game 27 fez uma chamada nua e crua: “Há alguém com spare loot? Estou desarmado na ronda 12.” Nenhum modelo respondeu aos seus pedidos de cooperação, mas o Claude tentou repetidamente. O resultado foi 7 mortes sem eliminações e 8 mortes pelo círculo venenoso.

Em contraste, o Grok não teve essas “travagens” nas partidas; em algumas corridas descobriu a tática de colisão com o veículo, ajustou continuamente através do soul.md e manteve-se até ao fim nas 30 partidas.

Metodologia e limitações de Liang: o tipo de tarefa determina o melhor modelo

No relatório, Liang sublinha que isto não significa que o Grok seja “um modelo melhor”: “Se o robot vier a correr na tua direção, preferes que seja o Claude ou o Grok? Depende do uso do robot.” Ele também indica que, se mudar para um formato de confronto de morte (conta apenas eliminações), o GPT 5.4 seria o campeão, e o Grok cairia para o meio da tabela.

Definições de tarefas diferentes no mesmo mundo de jogo levam a resultados totalmente diferentes — e é precisamente essa a limitação dos actuais testes de referência. Liang revela ainda que a OpenRouter está a desenvolver funcionalidades de routing de tarefas mais avançadas, para que o sistema selecione automaticamente o modelo mais adequado com base no contexto concreto da tarefa, em vez de depender da posição no ranking.

Perguntas frequentes

O que é, de forma concreta, o conceito de “imposto de alinhamento” de Liang?

Com base no relatório de Liang, o “imposto de alinhamento (alignment tax)” é o custo que os LLMs pagam durante o treino para demonstrarem educação, cooperação e evitar causar danos. Estes hábitos de treino são uma vantagem em cenários colaborativos, mas em jogos de soma zero (como battle royale) esta atitude cautelosa de “perguntar antes de atacar” faz com que o modelo perca oportunidades de investida e acabe eliminado por adversários mais proactivos. Liang explica este conceito com registos concretos do comportamento do Claude no terreno.

Porque é que o GPT 5.4 elimina mais, mas tem menos vitórias?

De acordo com os dados experimentais de Liang, o GPT 5.4 ficou no topo das eliminações em todo o torneio, com 38, mas apenas conseguiu 2 vitórias, com um custo por vitória de 61,44 USD (o mais alto entre os 8 modelos com vitórias). Liang aponta que isto reflete o problema de “Kill não é igual a Win”: no battle royale, a condição de vitória é sobreviver até ao fim, e não fazer mais eliminações. Se a experiência fosse feita num formato de confronto que conta apenas eliminações, o GPT 5.4 seria o campeão e o Grok cairia para o meio da tabela.

Como foram determinados os custos e a escolha dos modelos para esta experiência?

Liang afirma que, no total, as 30 partidas custaram 482 USD em custos de inferência. Com base nisto, estima que, se fossem incluídos modelos de topo como Opus 4.7, GPT-5.5 ou Gemini Ultra, o custo das 30 partidas chegaria a cerca de 3.000 USD; por isso, restringiu-se a modelos intermédios a avançados como participantes. A configuração do experimento fez com que cada modelo participasse anonimamente com letras, sem saber a identidade dos adversários, e Liang, como anfitrião, não interferiu em qualquer acção.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário