Gate News-Meldung, 29. April — Der KI-Forscher Aran Komatsuzaki führte eine vergleichende Analyse der Tokenisierungs-Effizienz über sechs große KI-Modelle hinweg durch, indem er Rich Suttons wegweisende Arbeit „The Bitter Lesson“ in neun Sprachen übersetzte und sie anschließend über die Tokenizer von OpenAI, Gemini, Qwen, DeepSeek, Kimi und Claude verarbeitete. Unter Verwendung der Tokenanzahl der englischen Version auf OpenAI als Grundlage (1x) stellte die Studie erhebliche Unterschiede fest: Die Verarbeitung desselben Inhalts auf Chinesisch erforderte bei Claude 1,65x Tokens, verglichen mit lediglich 1,15x auf OpenAI. Hindi zeigte bei Claude ein noch drastischeres Ergebnis und lag mit über 3x über der Grundlage. Anthropic belegte unter den sechs getesteten Modellen den niedrigsten Platz.
Entscheidend ist: Als derselbe chinesische Text über verschiedene Modelle verarbeitet wurde—alle jeweils anhand derselben englischen Grundlage gemessen—liefen die Ergebnisse dramatisch auseinander: Kimi verbrauchte nur 0,81x Tokens (und damit sogar weniger als Englisch), Qwen 0,85x, während Claude 1,65x benötigte. Diese Lücke zeigt ein reines Problem der Tokenisierungs-Effizienz und keine inhärente Sprachproblematik. Chinesische Modelle zeigten eine überlegene Effizienz bei der Verarbeitung von Chinesisch, was darauf hindeutet, dass die Diskrepanz von der Optimierung der Tokenizer herrührt und nicht von der Sprache selbst.
Die praktischen Auswirkungen für Nutzer sind erheblich: Ein erhöhter Tokenverbrauch treibt die API-Kosten direkt in die Höhe, verlängert die Antwortlatenz des Modells und erschöpft die Kontextfenster schneller. Die Tokenisierungs-Effizienz hängt von der sprachlichen Zusammensetzung der Trainingsdaten eines Modells ab—Modelle, die überwiegend auf Englisch trainiert wurden, komprimieren englischen Text effizienter, während Sprachen mit geringerer Datenrepräsentation in kleinere, weniger effiziente Fragmente tokenisiert werden.
Komatsuzakis Schlussfolgerung unterstreicht ein grundlegendes Prinzip: Die Marktgröße bestimmt die Tokenisierungs-Effizienz. Größere Märkte erhalten bessere Optimierungen, während unterrepräsentierte Sprachen mit deutlich höheren Tokenkosten konfrontiert sind.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
Gesetzgeber in Colorado schlagen einen Ersatz für ein KI-Gesetz vor, um Bedenken der Branche zu adressieren
Abgeordnete aus Colorado bemühen sich darum, das staatliche KI-Gesetz für 2024, SB24-205, aufzuheben und durch neue Regelungen zu ersetzen. Diese würden den Anwendungsbereich der KI-Regulierung einschränken, gleichzeitig aber auf die Anliegen der Branche eingehen, was die rechtlichen Belastungen bei der Einhaltung betrifft. Der neue Vorschlag, SB26-189, würde KI-Systeme regeln, die eingesetzt werden in
CryptoFrontier5Std her
R0AR schreitet zum Consensus 2026 PitchFest-Finale vor und verpasst die Top-20 nur knapp
Laut MetaversePost rückte R0AR am 4. Mai in die finale Auswahlrunde von CoinDesk’s Consensus 2026 PitchFest vor und verpasste die Top-20-Startups, die für Live-Präsentationen ausgewählt wurden, nur knapp. Der Web3- und KI-Innovator wurde zusammen mit vielversprechenden Startups weltweit bei einer der Branchen-…
GateNews8Std her
Musk fordert vor dem Prozess eine Einigung in Höhe von 150 Milliarden US-Dollar mit OpenAI, Einigungsgespräche scheitern
Laut einer Gerichtsakte wandte sich Elon Musk am 26. April an den OpenAI-Präsidenten Greg Brockman, zwei Tage bevor ihr Prozess in einem Bundesgericht in Oakland begann, um eine Einigung auszuloten. Als Brockman vorschlug, dass beide Parteien ihre Ansprüche fallen lassen, antwortete Musk mit Drohungen und sagte Brockman: „Bis zum Ende
GateNews9Std her
Cursor nimmt das 60-Milliarden-US-Dollar-Angebot von SpaceX zur Übernahme an, arbeitet aber nicht mit xAI an Codierungs-Modellen zusammen
Laut The Information hat Cursor ein bedingtes 60 Milliarden US-Dollar Übernahmeangebot von SpaceX angenommen, obwohl die Transaktion noch nicht finalisiert wurde. Das Unternehmen hat derzeit keine Pläne, mit der KI-Einheit von SpaceX, xAI, an der Entwicklung von Codierungsmodellen zusammenzuarbeiten. Stattdessen konzentriert sich Cursor darauf, es zu optimieren
GateNews9Std her
Haun Ventures schließt am 4. Mai einen 1-Milliarde-US-Dollar-Fonds ab und verteilt das Kapital zwischen frühen und späten Krypto-Investments
Laut Bloomberg hat Haun Ventures am 4. Mai eine Fundraising-Runde in Höhe von 1 Milliarde US-Dollar abgeschlossen. Dabei wurden 500 Millionen US-Dollar für Early-Stage- und 500 Millionen US-Dollar für Late-Stage-Investitionen bereitgestellt. Der Fonds wird das Kapital in den nächsten zwei bis drei Jahren einsetzen und sich dabei auf Krypto- und Blockchain-Startups konzentrieren, während er ausweitet
GateNews9Std her
OpenAI erhöht $4 Milliarde für ein Joint Venture zur Projektbereitstellung, bewertet auf 10 Milliarden US-Dollar
Laut BlockBeats hat OpenAI am 4. Mai über $4 Milliarden US-Dollar aufgebracht, um ein neues Joint Venture zu gründen, das Unternehmen dabei helfen soll, seine Software für Künstliche Intelligenz zu übernehmen. Das Venture mit dem Namen The Deployment Company wird von 19 Investoren unterstützt, darunter TPG Inc., Brookfield Asset Management,
GateNews10Std her