Teste prático do OpenRouter LLM Battle Royale: Grok 4.1 Fast conquista o campeonato com 13 vitórias

OpenRouter LLM大逃殺實測

O diretor de desenvolvimento para a OpenRouter, Jacky Liang, em 4 de junho, colocou 11 dos principais grandes modelos de linguagem em um mapa de battle royale de 400 metros quadrados que ele construiu em Canvas 2D, para realizar 30 partidas de testes. O resultado: o Grok 4.1 Fast da xAI levou a melhor, com 13 vitórias; o custo por vitória foi de apenas US$ 0,97.

Grok 4.1 Fast vence com 13 vitórias e 43% de taxa de vitória; custo por vitória de US$ 0,97

OpenRouter LLM大逃殺 (Fonte: blog da OpenRouter)

Com base nos dados experimentais de Liang, o ranking completo é o seguinte (parcial):

Grok 4.1 Fast: 13 vitórias (taxa de vitória 43%), custo por vitória de US$ 0,97

Claude Sonnet 4.6: 5 vitórias, custo por vitória de US$ 26,78

GPT 5.4: 2 vitórias (38 abates), custo por vitória de US$ 61,44 (o mais alto entre os 8 modelos que conquistaram vitórias)

GPT 5.4-mini: 0 vitórias, gasto de US$ 28,68

Kimi K2.6: 0 vitórias, gasto de US$ 24,36

DeepSeek v4 Flash: 0 vitórias, gasto de US$ 4,11; custo por abate mais baixo (US$ 0,26), 16 abates, mas nunca venceu o círculo final

Liang aponta que cada modelo tem dois arquivos editáveis: soul.md (configuração de personalidade) e memory.md (anotações táticas), para que possam aprender e ajustar a estratégia entre as partidas; os modelos participam anonimamente com letras A a L e não sabem a identidade dos adversários.

O conceito de “imposto de alinhamento” proposto por Liang: o comportamento cooperativo do Claude Sonnet 4.6 em um jogo de soma zero tem um custo

No relatório, Liang propõe o conceito de “imposto de alinhamento (alignment tax)”, que significa que, durante o treinamento, o modelo é ensinado a ser educado, cooperar e evitar causar dano; esses hábitos acabam virando desvantagem em um jogo de soma zero.

O Claude Sonnet 4.6 é o caso mais típico: no Game 8, nas primeiras 50 rodadas, fez quatro propostas de aliança e avisou a todos a posição do atirador; no Game 22, disse ao adversário “não estou mirando em você” e não atirou; no Game 27, fez uma fala nua e crua “alguém tem um spare loot? Eu estou na rodada 12 sem nada na mão”. Nenhum modelo respondeu aos pedidos de cooperação do Claude, mas ele repetiu as tentativas. O resultado foram 7 partidas sem abates e 8 mortes no círculo tóxico.

Em contrapartida, o Grok não apresentou esses “freios” nas partidas; em algumas batalhas, identificou táticas de colisão e, ao escrever isso no soul.md, seguiu otimizando continuamente até concluir as 30 partidas.

Metodologia e limitações de Liang: o melhor modelo depende do tipo de tarefa

No relatório, Liang enfatiza que isso não significa que o Grok seja “um modelo melhor”: “Se o robô estiver vindo na sua direção, você quer que ele seja Claude ou Grok? Depende do que você quer fazer com o robô.” Ele também aponta que, se trocarmos para um formato de duelo (valendo só o número de abates), o GPT 5.4 seria o campeão, e o Grok ficaria no meio do ranking.

Definições diferentes de tarefas dentro do mesmo mundo do jogo geram resultados completamente diferentes — é exatamente essa a limitação dos testes de referência atuais. Liang revela que a OpenRouter está desenvolvendo recursos mais avançados de roteamento de tarefas: o sistema selecionará automaticamente o modelo mais adequado com base no contexto específico da tarefa, em vez de depender apenas do ranking.

Perguntas frequentes

O que, na prática, a ideia de “imposto de alinhamento” de Liang quer dizer?

De acordo com o relatório de Liang, “imposto de alinhamento (alignment tax)” é o custo que o LLM paga durante o treinamento para demonstrar cordialidade, cooperar e evitar causar dano. Esses hábitos de treinamento são vantagens em cenários cooperativos, mas em jogos de soma zero (como o battle royale) essa postura cautelosa de “perguntar antes de agir” faz o modelo perder momentos de ataque e, em seguida, ser eliminado por adversários mais agressivos. Liang usa registros do comportamento do Claude em campo para explicar esse conceito.

Por que o GPT 5.4 mata mais, mas vence menos?

Com base nos dados experimentais de Liang, o GPT 5.4 liderou todos os modelos em abates no total do jogo (38), mas conseguiu apenas 2 vitórias; o custo por vitória foi de US$ 61,44 (o mais alto entre os 8 modelos que tiveram vitórias). Liang aponta que isso reflete o problema de “Kill não é igual a Win”: em um battle royale, a vitória depende de sobreviver até o final, e não de obter mais abates. Se o formato fosse um duelo que conta apenas abates, o GPT 5.4 seria o campeão e o Grok cairia para o meio do ranking.

Como os custos e a escolha dos modelos desta vez foram definidos?

Liang diz que o experimento inteiro, com 30 partidas, custou US$ 482 em inferência. Ele usou isso para estimar que, ao incluir modelos de ponta como Opus 4.7, GPT-5.5 ou Gemini Ultra, o custo das 30 partidas chegaria a cerca de US$ 3.000; por isso, ele restringiu os modelos de nível intermediário e superior como participantes. Na configuração do experimento, cada modelo foi anonimizado por letras e não sabia a identidade dos adversários; Liang, como anfitrião, não interferiu em nenhuma ação.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários