Message de Gate News, 29 avril — La chercheuse en IA Aran Komatsuzaki a mené une analyse comparative de l’efficacité de la tokenisation sur six grands modèles d’IA en traduisant le papier fondateur de Rich Sutton « The Bitter Lesson » dans neuf langues et en les traitant avec les tokenizers d’OpenAI, Gemini, Qwen, DeepSeek, Kimi et Claude. En utilisant le nombre de tokens de la version anglaise sur OpenAI comme base (1x), l’étude a révélé d’importantes disparités : traiter le même contenu en chinois nécessitait 1,65x tokens sur Claude, contre seulement 1,15x sur OpenAI. L’hindi a montré un résultat encore plus extrême sur Claude, dépassant la base de plus de 3x. Anthropic est arrivé en dernière position parmi les six modèles testés.
Critiquement, lorsque le même texte chinois identique a été traité sur différents modèles—tous mesurés par rapport à la même base anglaise—les résultats ont divergé de manière spectaculaire : Kimi n’a consommé que 0,81x tokens (même en dessous de l’anglais), Qwen 0,85x, tandis que Claude en demandait 1,65x. Cet écart révèle un problème pur d’efficacité de tokenisation, pas une question intrinsèque de langue. Les modèles chinois ont démontré une efficacité supérieure pour le traitement du chinois, ce qui suggère que la disparité provient d’optimisations du tokenizer plutôt que de la langue elle-même.
Les implications pratiques pour les utilisateurs sont considérables : une consommation accrue de tokens augmente directement les coûts des API, prolonge la latence des réponses des modèles et épuise plus rapidement les fenêtres de contexte. L’efficacité de la tokenisation dépend de la composition linguistique des données d’entraînement d’un modèle—les modèles entraînés principalement sur l’anglais compressent l’anglais plus efficacement, tandis que les langues moins représentées sont tokenisées en fragments plus petits et moins efficaces.
La conclusion de Komatsuzaki souligne un principe fondamental : la taille du marché détermine l’efficacité de la tokenisation. Les marchés plus vastes bénéficient d’une meilleure optimisation, tandis que les langues sous-représentées font face à des coûts de tokens nettement plus élevés.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Des législateurs du Colorado proposent un remplacement de loi sur l’IA pour répondre aux inquiétudes du secteur
Des législateurs du Colorado s’emploient à abroger et à remplacer la loi de 2024 sur l’intelligence artificielle de l’État, SB24-205, par de nouvelles règles qui réduisent le champ d’application de la réglementation de l’IA tout en répondant aux inquiétudes de l’industrie concernant les charges de conformité. La nouvelle proposition, SB26-189, viserait à réglementer les systèmes d’IA utilisés dans
CryptoFrontierIl y a 3h
R0AR progresse vers la manche finale du pitchfest Consensus 2026, manquant de peu le top 20
D’après MetaversePost, R0AR est passé au tour de sélection final du CoinDesk Consensus 2026 PitchFest le 4 mai, manquant de peu le top 20 des startups sélectionnées pour des présentations en direct. L’innovateur Web3 et IA a été évalué aux côtés d’autres startups à fort potentiel du monde entier lors de l’un des événements majeurs de l’industrie
GateNewsIl y a 7h
Musk réclame un règlement de 150 milliards de dollars avec OpenAI avant le procès, les discussions échouent
Selon un acte judiciaire, Elon Musk a contacté le président d’OpenAI, Greg Brockman, le 26 avril, deux jours avant le début de leur procès devant la cour fédérale d’Oakland, afin d’explorer un règlement. Lorsque Brockman a suggéré que les deux parties abandonnent leurs demandes, Musk a répondu avec des menaces, en disant à Brockman : « D’ici la fin
GateNewsIl y a 7h
Cursor accepte l’offre d’acquisition de SpaceX de 60 milliards de dollars, mais ne s’associera pas à xAI sur des modèles de codage
Selon The Information, Cursor a accepté une offre d’acquisition conditionnelle de 60 milliards de dollars de la part de SpaceX, bien que l’opération n’ait pas encore été finalisée. La société n’a actuellement aucun projet de collaborer avec l’unité IA de SpaceX, xAI, pour développer des modèles de codage. En revanche, Cursor se concentre sur l’optimisation de celui-ci
GateNewsIl y a 8h
Haun Ventures clôture un fonds de 1 milliard de dollars le 4 mai, répartit le capital entre des investissements crypto à un stade précoce et à un stade avancé
D’après Bloomberg, Haun Ventures a achevé un tour de levée de fonds de 1 milliard de dollars le 4 mai, dont 500 millions de dollars alloués aux investissements en phase initiale et 500 millions de dollars aux investissements en phase avancée. Le fonds déploiera des capitaux au cours des deux à trois prochaines années, en ciblant les startups de cryptomonnaies et de blockchain tout en se développant
GateNewsIl y a 8h
OpenAI lève $4 milliard pour une coentreprise de déploiement, évaluée à 10 milliards de dollars
D'après BlockBeats, le 4 mai, OpenAI a levé plus de $4 milliard pour créer une nouvelle coentreprise axée sur l'aide aux entreprises afin qu'elles adoptent son logiciel d'intelligence artificielle. Cette coentreprise, appelée The Deployment Company, est soutenue par 19 investisseurs, dont TPG Inc., Brookfield Asset Management,
GateNewsIl y a 9h