El coste de tokenización del idioma chino de Claude es un 65% más alto que el del inglés; OpenAI solo un 15% más

Mensaje de Gate News, 29 de abril — La investigadora de IA Aran Komatsuzaki realizó un análisis comparativo de la eficiencia de tokenización en seis modelos principales de IA traduciendo el influyente artículo de Rich Sutton “The Bitter Lesson” a nueve idiomas y procesándolos mediante los tokenizadores de OpenAI, Gemini, Qwen, DeepSeek, Kimi y Claude. Usando el recuento de tokens de la versión en inglés en OpenAI como línea de base (1x), el estudio reveló disparidades significativas: procesar el mismo contenido en chino requería 1.65x tokens en Claude, en comparación con solo 1.15x en OpenAI. El hindi mostró un resultado aún más extremo en Claude, superando la línea de base en más de 3x. Anthropic ocupó el puesto más bajo entre los seis modelos probados.

Críticamente, cuando el texto chino idéntico se procesó en diferentes modelos—todos medidos frente a la misma línea de base en inglés—los resultados divergieron de forma drástica: Kimi consumió solo 0.81x tokens (incluso menos que el inglés), Qwen 0.85x, mientras que Claude requirió 1.65x. Esta brecha revela un problema puro de eficiencia de tokenización, no un problema inherente del idioma. Los modelos de chino demostraron una eficiencia superior al procesar chino, lo que sugiere que la disparidad se debe a la optimización del tokenizador más que al propio idioma.

Las implicaciones prácticas para los usuarios son sustanciales: el aumento del consumo de tokens incrementa directamente los costos de la API, alarga la latencia de respuesta del modelo y agota más rápidamente las ventanas de contexto. La eficiencia de tokenización depende de la composición lingüística de los datos de entrenamiento de un modelo—los modelos entrenados predominantemente en inglés comprimen el texto en inglés con más eficiencia, mientras que los idiomas con menor representación en los datos se tokenizan en fragmentos más pequeños y menos eficientes.

La conclusión de Komatsuzaki recalca un principio fundamental: el tamaño del mercado determina la eficiencia de tokenización. Los mercados más grandes reciben una mejor optimización, mientras que los idiomas con menor representación enfrentan costos de token significativamente más altos.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Haun Ventures cierra un fondo de 1 billón el 5 de mayo, con el objetivo de impulsar startups de cripto y de IA

Según Cointelegraph, Haun Ventures completó la recaudación de 1.000 millones de dólares para un nuevo fondo el 5 de mayo, con el capital que se asignará por igual entre inversiones en etapas iniciales y etapas tardías. El fondo se centrará en startups de cripto, inteligencia artificial y alternativas

GateNewsHace23m

Las inversiones de Anthropic y OpenAI superan los 1,1 billones de dólares en operaciones de cripto retail desde el inicio de 2026

Según Bloomberg, los inversores minoristas han inyectado aproximadamente 1,13 mil millones de dólares en operaciones apalancadas de derivados de empresas privadas de IA desde el inicio de 2026. Las plataformas cripto Ventuals y PreStocks permiten operar 24 horas al día en firmas como Anthropic, OpenAI y SpaceX sin otorgar acceso directo e

GateNewsHace28m

El veterano de Qualcomm Alex Katouzian se une a Intel como vicepresidente ejecutivo de computación para clientes y de IA física

Según Intel, el 5 de mayo, Alex Katouzian se incorporó a la empresa como vicepresidente ejecutivo y gerente general de la división de Client Computing y Physical AI. Katouzian anteriormente se desempeñó como vicepresidente ejecutivo y gerente general del negocio de móvil, cómputo y XR de Qualcomm. Intel también

GateNewsHace28m

La descripción general de IA de Google entrega decenas de millones de respuestas incorrectas cada hora; la precisión de Gemini 3 es del 91%

Según The New York Times, la función AI Overview de Google tiene una tasa de precisión del 91% con Gemini 3, lo que significa que ofrece decenas de millones de respuestas incorrectas cada hora. Basado en el procesamiento de Google de más de 5 billones de búsquedas al año, esto se traduce en cientos de miles de información inexacta

GateNewsHace35m

Anthropic prepara un asistente proactivo Orbit que conecta seis herramientas, incluido GitHub y Figma

De acuerdo con hallazgos de código monitoreados por Beating, Anthropic está preparando una nueva función de asistente proactivo llamada Orbit que se conecta a Gmail, Slack, GitHub, Calendar, Drive y Figma. La función utiliza un mecanismo de participación voluntaria y genera resúmenes personalizados a partir de herramientas de trabajo conectadas mientras

GateNewshace1h

Vertex Ventures respalda la startup de IA de Singapur ReN3 con $5M el 5 de mayo

Según Vertex Ventures Southeast Asia e India, el 5 de mayo la startup de IA empresarial ReN3, con sede en Singapur, recaudó 5 millones de dólares en financiación semilla para expandirse en el sudeste asiático y para invertir en el desarrollo de productos. La empresa planea profundizar su canal de socios

GateNewshace1h
Comentar
0/400
Sin comentarios