Gate 新闻消息,4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的开创性论文《The Bitter Lesson》翻译成九种语言,并在 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器上进行处理,对六个主要 AI 模型的分词效率进行了对比分析。以 OpenAI 上英文版本的分词数量作为基准 (1x),研究发现了显著差异:在 Claude 上处理相同内容时,中文所需分词数为 1.65x,而在 OpenAI 上仅为 1.15x。印地语在 Claude 上的结果更为极端,超过基准 3 倍以上。Anthropic 在这六个测试模型中排名最低。
关键在于,当相同的中文文本在不同模型中进行处理——且都以同一个英文基准进行测量时——结果出现了惊人的分歧:Kimi 仅消耗 0.81x 个分词 (甚至少于英文),Qwen 为 0.85x,而 Claude 需要 1.65x。这个差距揭示的是纯粹的分词效率问题,而不是语言本身的问题。中文模型在处理中文时表现出更高效率,这表明差异源于分词器的优化,而非语言本身。
对用户的实际影响十分重大:分词消耗的增加会直接推高 API 成本、延长模型响应延迟,并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——如果模型主要在英文上训练,它会更高效地压缩英文文本;而数据代表性较低的语言则会被分成更小、更不高效的片段。
Komatsuzaki 的结论强调了一个基础原则:市场规模决定分词效率。更大的市场会获得更好的优化,而代表性不足的语言面临显著更高的分词成本。
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
هوانغ رين-سونغ يردّ على مزاعم «نهاية العالم» التي تتحدث عنها تقنيات الذكاء الاصطناعي: المستقبل سيخلق فرص عمل ناشئة واسعة النطاق
قال الرئيس التنفيذي لشركة NVIDIA، جينسن هوانغ، خلال مائدة مستديرة عالمية إن الذكاء الاصطناعي ليس نهاية العالم، مؤكدًا أن الذكاء الاصطناعي سيعزز إعادة التصنيع في الولايات المتحدة ويخلق فرص عمل. وتوقع أن الموجة التالية من “الذكاء الاصطناعي الوكيلّي” ستؤدي إلى زيادة هائلة في الطلب على وحدات GPU بمقدار ألف مرة، ما يتطلب بنية تحتية صناعية من نوع جديد وأسواق عمل واسعة للغاية. وشدد على أن الذكاء الاصطناعي سيزيد الإنتاجية وليس المقصود منه استبدال العاملين، ودعا إلى تطوير مسؤول ومعايير أمنية عبر وطنية؛ كما أن تأثيراته على التوظيف والاقتصاد ما يزال يتطلب مراقبة طويلة الأمد.
ChainNewsAbmediaمنذ 57 د
تُسرّع OpenAI هاتف وكلاء الذكاء الاصطناعي حتى النصف الأول من 2027، وMediaTek تؤمّن صفقة معالج حصرية
وبحسب أحدث مسحٍ صناعي للمحلل مينغ-تشي كو، فإن شركة OpenAI تُسرّع تطوير أول هاتف لها بعامل ذكاء اصطناعي، وتسعى إلى بدء الإنتاج على نطاق واسع في وقت مبكر من الربع الأول 2027. ومن المرجح الآن أن تتمكن MediaTek من تأمين طلب معالج حصري، على أن يكون المعالج مبنيًا على نسخة مخصصة من
GateNewsمنذ 1 س
سييرا تجمع 950 مليون دولار، وتقييمها 15.8 مليار: بريت تايلور يقتحم صدارة خدمات العملاء بالذكاء الاصطناعي بصفته رئيسًا لـ OpenAI
تأسست Sierra على يد Bret Taylor بالشراكة، وأعلنت اكتمال جولة التمويل Series E بقيمة 950 مليون دولار، بتقييم يبلغ 15.8 مليار دولار، استثمر فيها Tiger Global و GV. وصلت إلى 150 مليون دولار من ARR خلال 8 فصول، مع معدل اختراق Fortune 50 بما يتجاوز 40%. تتموضع كس منصة خدمات عملاء عمودية للشركات تتمحور حول وكلاء الذكاء الاصطناعي، وتوفر تدفقات عمل جاهزة للاستخدام. كما يشغل Taylor منصب رئيس مجلس إدارة OpenAI، وتُعد الحوكمة والإفصاحات المتعلقة بالمصالح محور التركيز.
ChainNewsAbmediaمنذ 2 س
واجهة Gemini API تدعم Webhooks: تساعد Google في معالجة مشكلة الاستقصاء المتكرر للمهام الطويلة، ويمكن لـ Batch وVeo تقديم عمليات الدفع فوراً
أطلقت Google Gemini API في 4 مايو Webhooks، حيث يتم دفع النتائج تلقائيًا إلى عنوان callback URL عند اكتمال المهام الطويلة، ما يستبدل أسلوب الاستقصاء الدوري (polling)، ويقلّل استهلاك الموارد والتأخير، ويبسّط عملية البرمجة. وهو مناسب لـ Batch API وVeo2 واستدلالات السياقات الطويلة، ولا سيما ملائم للحوسبة عديمة الخوادم (serverless). وبالمقارنة مع OpenAI التي تميل إلى استخدام SSE، ومع Anthropic التي ما زالت تعتمد الاستقصاء الدوري، تبرز Google اهتمامها ببنية تحتية للمطوّرين. وتستهدف المرحلة المقبلة تعزيز آليات الأمان وتوسيع النماذج. وبالنسبة للمطوّرين في تايوان، فإن الدمج الفوري يمكن أن يخفّض بوضوح الحصة (quota) والعبء على النظام.
ChainNewsAbmediaمنذ 2 س
كروتريم تتحول إلى خدمات سحابية للذكاء الاصطناعي في 5 مايو، وتنشر أول أرباح مع وصول إيرادات السنة المالية 26 إلى 31.6 مليون دولار
وبحسب وكالة برس ترست أوف الهند، أعادت شركة الذكاء الاصطناعي الهندية Krutrim تموضعها بوصفها مزود خدمات سحابية للذكاء الاصطناعي داخل البلاد في 5 مايو، مع إيقاف جهود تصميم الرقائق وتوجيه رأس المال والموهبة إلى البنية التحتية السحابية.
وأفادت الشركة بأن إيرادات السنة المالية 2026 بلغت نحو 3 مليارات روبية (31.6 مليون دولار أمريكي
GateNewsمنذ 3 س