O custo da tokenização do idioma chinês do Claude é 65% mais alto do que o do inglês; a OpenAI apenas 15% mais

Mensagem do Gate News, 29 de abril — a investigadora de IA Aran Komatsuzaki realizou uma análise comparativa da eficiência de tokenização em seis dos principais modelos de IA, traduzindo o artigo seminal de Rich Sutton “The Bitter Lesson” para nove línguas e processando-o através dos tokenizadores da OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude. Usando a contagem de tokens da versão em inglês na OpenAI como base (1x), o estudo revelou disparidades significativas: ao processar o mesmo conteúdo em chinês, eram necessários 1.65x tokens no Claude, em comparação com apenas 1.15x na OpenAI. O hindi apresentou um resultado ainda mais extremo no Claude, superando a base em mais de 3x. A Anthropic ficou em último lugar entre os seis modelos testados.

De forma crucial, quando o mesmo texto chinês foi processado em diferentes modelos — todos medidos em relação à mesma base em inglês — os resultados divergiram dramaticamente: o Kimi consumiu apenas 0.81x tokens (até menos do que o inglês), o Qwen 0.85x, enquanto o Claude exigiu 1.65x. Esta diferença revela um problema puro de eficiência de tokenização, e não uma questão inerente ao idioma. Os modelos de chinês demonstraram maior eficiência ao processar chinês, sugerindo que a disparidade decorre da otimização do tokenizador e não do próprio idioma.

As implicações práticas para os utilizadores são substanciais: o aumento do consumo de tokens eleva diretamente os custos da API, aumenta a latência de resposta do modelo e esgota mais rapidamente as janelas de contexto. A eficiência de tokenização depende da composição linguística dos dados de treino de um modelo — modelos treinados predominantemente em inglês comprimem o texto em inglês com maior eficiência, enquanto idiomas com menor representação nos dados são tokenizados em fragmentos menores e menos eficientes.

A conclusão de Komatsuzaki sublinha um princípio fundamental: o tamanho do mercado determina a eficiência de tokenização. Mercados maiores recebem melhor otimização, enquanto os idiomas sub-representados enfrentam custos de tokens significativamente mais elevados.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Meta procura 13 mil milhões de dólares em financiamento para um centro de dados de IA no Texas, liderado pela Morgan Stanley e pelo JPMorgan

Segundo Beating, a Meta procura cerca de 13 mil milhões de dólares em financiamento para um centro de dados de inteligência artificial no Texas, com a Morgan Stanley e a JPMorgan a liderarem a iniciativa. A estrutura de financiamento consistirá sobretudo em dívida, ficando o restante em capital, segundo pessoas familiarizadas com a situação

GateNews11m atrás

A Lattice Semiconductor adquire a AMI por 1,65 mil milhões de dólares a 4 de maio, expandindo-se para software de infraestrutura de IA

Segundo a Reuters, a Lattice Semiconductor anunciou a 4 de maio que vai adquirir a AMI, uma empresa de software de firmware e infraestrutura, por 1,65 mil milhões de dólares, para expandir mais profundamente a gestão de sistemas de IA e a infraestrutura cloud. A AMI especializa-se em firmware BIOS e em software do Baseboard Management Controller (BMC)

GateNews23m atrás

Laboratório de Hong Kong lança modelo de IA HKGAI-V3 em chips chineses na primeira metade de 2026

De acordo com o South China Morning Post, o Centro de Investigação e Desenvolvimento de IA Generativa de Hong Kong planeia lançar o seu modelo HKGAI-V3 na primeira metade de 2026, com o sistema optimizado para funcionar em chips de fabrico chinês, incluindo o Ascend 910C da Huawei. O modelo baseia-se na arquitectura do DeepSeek V4 com

GateNews33m atrás

AlphaDrive Lança $100M Fundo de IA e Cibersegurança israelita

Yaron Elad e Elik Etzion, antigos executivos da Elron Ventures, em Israel, lançaram a AlphaDrive, um fundo de 100 milhões de dólares focado em cibersegurança e inteligência artificial, segundo a Calcalist. Estrutura do Fundo e Abordagem de Investimento A AlphaDrive procura startups fundadas por israelitas

CryptoFrontier52m atrás

Chefe de Vendas da OpenAI, James Dyett, entra na Thrive Capital como operador em residência

De acordo com a Beating, o responsável sénior de vendas da OpenAI, James Dyett, anunciou recentemente a sua saída para se juntar à Thrive Capital como Operator in Residence. Dyett, que se juntou à OpenAI durante o boom do ChatGPT em 2023, indicou uma preferência pela fase de construção de empresas em fase inicial como motivo para sair. Ele referiu-se a

GateNews57m atrás

A Sierra conclui uma ronda $950M de financiamento Série E a uma avaliação de 15,8 mil milhões de dólares, liderada pela Tiger Global e pela GV

De acordo com a ChainCatcher, a Sierra, uma startup empresarial de IA fundada pelo presidente do conselho da OpenAI Bret Taylor e pelo antigo executivo da Google Clay Bavor, concluiu uma ronda de financiamento Série E no valor de 950 milhões de dólares, com uma avaliação pós-money de 15,8 mil milhões de dólares. A ronda foi liderada pela Tiger Global e pelo braço de capital de risco da Alphabet, G

GateNews1h atrás
Comentar
0/400
Nenhum comentário