Claude: Chinesische Sprach-Tokenisierungskosten 65% höher als Englisch, OpenAI nur 15% mehr

Gate News-Meldung, 29. April — Der KI-Forscher Aran Komatsuzaki führte eine vergleichende Analyse der Tokenisierungs-Effizienz über sechs große KI-Modelle hinweg durch, indem er Rich Suttons wegweisende Arbeit „The Bitter Lesson“ in neun Sprachen übersetzte und sie anschließend über die Tokenizer von OpenAI, Gemini, Qwen, DeepSeek, Kimi und Claude verarbeitete. Unter Verwendung der Tokenanzahl der englischen Version auf OpenAI als Grundlage (1x) stellte die Studie erhebliche Unterschiede fest: Die Verarbeitung desselben Inhalts auf Chinesisch erforderte bei Claude 1,65x Tokens, verglichen mit lediglich 1,15x auf OpenAI. Hindi zeigte bei Claude ein noch drastischeres Ergebnis und lag mit über 3x über der Grundlage. Anthropic belegte unter den sechs getesteten Modellen den niedrigsten Platz.

Entscheidend ist: Als derselbe chinesische Text über verschiedene Modelle verarbeitet wurde—alle jeweils anhand derselben englischen Grundlage gemessen—liefen die Ergebnisse dramatisch auseinander: Kimi verbrauchte nur 0,81x Tokens (und damit sogar weniger als Englisch), Qwen 0,85x, während Claude 1,65x benötigte. Diese Lücke zeigt ein reines Problem der Tokenisierungs-Effizienz und keine inhärente Sprachproblematik. Chinesische Modelle zeigten eine überlegene Effizienz bei der Verarbeitung von Chinesisch, was darauf hindeutet, dass die Diskrepanz von der Optimierung der Tokenizer herrührt und nicht von der Sprache selbst.

Die praktischen Auswirkungen für Nutzer sind erheblich: Ein erhöhter Tokenverbrauch treibt die API-Kosten direkt in die Höhe, verlängert die Antwortlatenz des Modells und erschöpft die Kontextfenster schneller. Die Tokenisierungs-Effizienz hängt von der sprachlichen Zusammensetzung der Trainingsdaten eines Modells ab—Modelle, die überwiegend auf Englisch trainiert wurden, komprimieren englischen Text effizienter, während Sprachen mit geringerer Datenrepräsentation in kleinere, weniger effiziente Fragmente tokenisiert werden.

Komatsuzakis Schlussfolgerung unterstreicht ein grundlegendes Prinzip: Die Marktgröße bestimmt die Tokenisierungs-Effizienz. Größere Märkte erhalten bessere Optimierungen, während unterrepräsentierte Sprachen mit deutlich höheren Tokenkosten konfrontiert sind.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare