Claude's Chinese Language Tokenization Cost 65% Higher Than English, OpenAI Only 15% More

Gate News message, April 29 — AI researcher Aran Komatsuzaki conducted a comparative analysis of tokenization efficiency across six major AI models by translating Rich Sutton’s seminal paper “The Bitter Lesson” into nine languages and processing them through OpenAI, Gemini, Qwen, DeepSeek, Kimi, and Claude’s tokenizers. Using the English version’s token count on OpenAI as the baseline (1x), the study revealed significant disparities: processing the same content in Chinese required 1.65x tokens on Claude, compared to only 1.15x on OpenAI. Hindi showed an even more extreme result on Claude, exceeding the baseline by over 3x. Anthropic ranked lowest among the six models tested.

Critically, when the identical Chinese text was processed across different models—all measured against the same English baseline—the results diverged dramatically: Kimi consumed only 0.81x tokens (even less than English), Qwen 0.85x, while Claude required 1.65x. This gap reveals a pure tokenization efficiency problem, not an inherent language issue. Chinese models demonstrated superior efficiency in processing Chinese, suggesting the disparity stems from tokenizer optimization rather than the language itself.

The practical implications for users are substantial: increased token consumption directly raises API costs, extends model response latency, and depletes context windows more rapidly. Tokenization efficiency depends on the linguistic composition of a model’s training data—models trained predominantly on English compress English text more efficiently, while languages with lower data representation are tokenized into smaller, less efficient fragments.

Komatsuzaki’s conclusion underscores a fundamental principle: market size determines tokenization efficiency. Larger markets receive better optimization, while underrepresented languages face significantly higher token costs.

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Elon Musk 的 xAI 將更名為 SpaceXAI,作為獨立公司身分終止

根據 Odaily,Elon Musk 宣布 xAI 將更名為 SpaceXAI,因為該公司將不再以獨立實體的方式運作。

GateNews32分鐘前

IBM 在 Think 2026 以新的基於代理的工具擴充企業 AI 套件

根據 IBM 公司的說法,該公司在波士頓舉行的 Think 2026 會議上宣布擴展其企業 AI 能力,推出新的基於代理的工具,協助組織將人工智慧嵌入日常運作。Context Studio 現已全面提供,讓企業能夠

GateNews39分鐘前

Hut 8 股份因 98 億美元 AI 資料中心租約上漲 30%

Hut 8 股價在一則關於 98 億美元 AI 數據中心租賃協議的消息傳出後大幅跳漲超過 30%。這家比特幣礦企正在擴展至 AI 基礎設施,並透過位於德州的長期超大規模(hyperscale)合約進行布局。 AI 基礎設施擴張 該合約包含可能使總量增加的選項,其中包括

Crypto Frontier53分鐘前

Anthropic 推 Claude Dreams:Agent 在工作之間自整理記憶、消除重複與矛盾

Anthropic 在 Code with Claude 大會公布 Dreams,讓 Claude Managed Agents 在多場會話間自動整理記憶、消除重複與矛盾、更新陳舊條目,輸出可審核的整理後記憶庫;輸入上限為 100 個 session 與 4,096 字元,非同步執行,數分鐘至數十分鐘完成,支援串流觀察。研究預覽需申請,暫只支援 claude-opus-4-7 與 claude-sonnet-4-6,正式上市未定。

鏈新聞abmedia3小時前

Anthropic 接 SpaceX 算力:拿下 Colossus 1 整座 22 萬 GPU、Claude 解除限額

Anthropic 宣布與 SpaceX 就 Colossus 1 資料中心達成算力合作,將動用逾22萬顆 Nvidia GPU、300MW以上容量,預計一個月內全部部署供 Anthropic 使用,提升 Claude、Code 的運算與體驗。同步放寬 Pro/Max/Team/Enterprise 的每5小時用量上限、取消尖峰限額,並提高 Opus API 速率;亞洲歐洲基礎設施同步擴張,未來另有「軌道 AI 計算」等意向,尚未成約。

鏈新聞abmedia4小時前
留言
0/400
暫無留言