Biaya Tokenisasi Bahasa Tiongkok Claude 65% Lebih Tinggi daripada Bahasa Inggris, OpenAI Hanya 15% Lebih

Pesan Gate News, 29 April — Peneliti AI Aran Komatsuzaki melakukan analisis perbandingan efisiensi tokenisasi di enam model AI besar dengan menerjemahkan karya perintis Rich Sutton “The Bitter Lesson” ke sembilan bahasa dan memprosesnya melalui tokenizer OpenAI, Gemini, Qwen, DeepSeek, Kimi, dan Claude. Dengan menjadikan jumlah token versi bahasa Inggris di OpenAI sebagai baseline (1x), studi tersebut mengungkap perbedaan yang signifikan: memproses konten yang sama dalam bahasa Tiongkok memerlukan 1.65x token pada Claude, dibandingkan hanya 1.15x pada OpenAI. Bahasa Hindi menunjukkan hasil yang lebih ekstrem pada Claude, melebihi baseline lebih dari 3x. Anthropic menempati peringkat terendah di antara enam model yang diuji.

Yang paling kritis, ketika teks Tiongkok yang identik diproses di berbagai model—semuanya diukur terhadap baseline bahasa Inggris yang sama—hasilnya justru berbeda secara dramatis: Kimi hanya mengonsumsi 0.81x token (bahkan lebih sedikit dari bahasa Inggris), Qwen 0.85x, sedangkan Claude memerlukan 1.65x. Kesenjangan ini mengungkap masalah murni efisiensi tokenisasi, bukan masalah bahasa yang melekat. Model-model bahasa Tiongkok menunjukkan efisiensi yang lebih baik dalam memproses bahasa Tiongkok, yang mengisyaratkan bahwa perbedaan tersebut berasal dari optimisasi tokenizer, bukan dari bahasa itu sendiri.

Implikasi praktis bagi pengguna sangat besar: konsumsi token yang meningkat secara langsung menaikkan biaya API, memperpanjang latensi respons model, dan menghabiskan jendela konteks lebih cepat. Efisiensi tokenisasi bergantung pada komposisi linguistik dari data pelatihan suatu model—model yang dilatih terutama pada bahasa Inggris mengompresi teks bahasa Inggris lebih efisien, sementara bahasa dengan representasi data yang lebih rendah ditokenisasi menjadi fragmen-fragmen yang lebih kecil dan kurang efisien.

Kesimpulan Komatsuzaki menegaskan sebuah prinsip mendasar: ukuran pasar menentukan efisiensi tokenisasi. Pasar yang lebih besar menerima optimisasi yang lebih baik, sementara bahasa yang kurang terwakili menghadapi biaya token yang jauh lebih tinggi.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Anggota Dewan Perwakilan Colorado Mengusulkan Penggantian Undang-Undang AI untuk Mengatasi Kekhawatiran Industri

Para legislator Colorado tengah bergerak untuk mencabut dan mengganti undang-undang kecerdasan buatan (AI) negara bagian tahun 2024, SB24-205, dengan aturan baru yang mempersempit cakupan regulasi AI sambil menangani kekhawatiran industri terkait beban kepatuhan. Usulan baru tersebut, SB26-189, akan mengatur sistem AI yang digunakan dalam

CryptoFrontier4jam yang lalu

R0AR Melaju ke Babak Final Consensus 2026 PitchFest, Tersisih Tipis dari Top 20

Menurut MetaversePost, R0AR maju ke babak seleksi final CoinDesk Consensus 2026 PitchFest pada 4 Mei, hanya tersisih dari 20 startup teratas yang dipilih untuk presentasi langsung. Inovator Web3 dan AI itu dinilai bersama startup berpotensi tinggi di seluruh dunia pada salah satu m

GateNews7jam yang lalu

Musk Mengincar Penyelesaian Senilai $150 Miliar dari OpenAI Sebelum Sidang, Pembicaraan Penyelesaian Gagal

Menurut berkas pengadilan, Elon Musk menghubungi Presiden OpenAI Greg Brockman pada 26 April, dua hari sebelum sidang mereka dimulai di pengadilan federal Oakland, untuk membahas kemungkinan penyelesaian. Ketika Brockman menyarankan kedua pihak mencabut tuntutan mereka, Musk menanggapi dengan ancaman, mengatakan kepada Brockman: "Pada akhir

GateNews7jam yang lalu

Cursor Menerima Tawaran Akuisisi SpaceX senilai 60 miliar dolar AS tetapi Tidak Mau Berkolaborasi dengan xAI untuk Model Koding

Menurut The Information, Cursor telah menerima penawaran akuisisi bersyarat senilai 60 miliar dolar AS dari SpaceX, meskipun kesepakatan tersebut belum final. Saat ini, perusahaan tidak memiliki rencana untuk berkolaborasi dengan unit AI SpaceX, xAI, dalam mengembangkan model pengkodean. Sebagai gantinya, Cursor berfokus pada mengoptimalkannya

GateNews8jam yang lalu

Haun Ventures Menutup Dana senilai $1 miliar pada 4 Mei, Membagi Modal antara Investasi Kripto Tahap Awal dan Tahap Akhir

Menurut Bloomberg, Haun Ventures menyelesaikan putaran penggalangan dana senilai 1 miliar dolar AS pada 4 Mei, dengan 500 juta dolar AS dialokasikan untuk investasi tahap awal dan 500 juta dolar AS untuk investasi tahap lanjut. Dana tersebut akan menyalurkan modal selama dua hingga tiga tahun ke depan, menargetkan startup kripto dan blockchain sambil memperluas

GateNews8jam yang lalu

OpenAI Menggalang $4 Miliar untuk Usaha Patungan Penerapan, Senilai 10 Miliar Dolar AS

Menurut BlockBeats, pada 4 Mei, OpenAI menghimpun lebih dari $4 miliar untuk mendirikan perusahaan patungan baru yang berfokus membantu perusahaan mengadopsi perangkat lunak kecerdasan buatannya. Ventura tersebut, bernama The Deployment Company, didukung oleh 19 investor termasuk TPG Inc., Brookfield Asset Management,

GateNews9jam yang lalu
Komentar
0/400
Tidak ada komentar