باختصارأصدرت جوجل مسودات التنبؤ متعدد الرموز (MTP) لـ Gemma 4، مما يوفر سرعة تصل إلى 3 أضعاف في الاستنتاج دون أي تدهور في جودة الناتج.تقنية—تسمى فك التشفير التكهني—تستخدم "مُعدّ" خفيف الوزن

Decrypt

2026-05-07 14:16:33

باختصار

أطلقت جوجل مسودات التنبؤ متعدد الرموز (MTP) لنموذج جيمّا 4، مما يوفر تسريعًا يصل إلى 3 أضعاف في الاستنتاج دون أي تدهور في جودة المخرجات.
التقنية — المسماة فك التشفير التكهني — تستخدم نموذج “مسود” خفيف الوزن للتنبؤ بعدة رموز مرة واحدة، والذي يتحقق منه النموذج الرئيسي بشكل متوازي، متجاوزًا عنق الزجاجة في التنبؤ برمز واحد في كل مرة.
تتوفر مسودات MTP على Hugging Face و Kaggle و Ollama تحت نفس ترخيص Apache 2.0 مثل جيمّا 4، وتعمل مع أدوات مثل vLLM و MLX و SGLang.

تشغيل نموذج ذكاء اصطناعي على حاسوبك الخاص أمر رائع — حتى لا يكون كذلك. الوعد هو الخصوصية، وعدم وجود رسوم اشتراك، وعدم خروج البيانات من جهازك. الواقع، بالنسبة لمعظم الناس، هو مشاهدة مؤشر النص يتكرر لمدة خمس ثوانٍ بين الجمل. هذا العنق الزجاجي له اسم: سرعة الاستنتاج. وليس له علاقة بمدى ذكاء النموذج. إنه مشكلة في الأجهزة. نماذج الذكاء الاصطناعي القياسية تولد نصًا عبارة عن قطعة كلمة — تسمى رمزًا — في كل مرة. يجب على الأجهزة نقل مليارات المعلمات من الذاكرة إلى وحدات الحوسبة الخاصة بها فقط لإنتاج كل رمز واحد. إنه بطيء بطبيعته. على الأجهزة الاستهلاكية، الأمر مؤلم.

الحيلة التي يلجأ إليها معظم الناس هي تشغيل نماذج أصغر وأضعف — أو نسخ مضغوطة بشكل كبير، تسمى نماذج مُكممة، تضحّي بجزء من الجودة مقابل السرعة. لا حل من الحلين مثالي. تحصل على شيء يعمل، لكنه ليس النموذج الذي أردته فعلاً. الآن لدى جوجل فكرة مختلفة. أطلقت مؤخرًا مسودات التنبؤ متعدد الرموز (MTP) لعائلة نماذج جيمّا 4 المفتوحة — تقنية يمكن أن توفر تسريعًا يصل إلى 3 أضعاف دون المساس بجودة النموذج أو قدرته على التفكير على الإطلاق.

النهج يُسمى فك التشفير التكهني، وهو موجود كمفهوم منذ سنوات. نشر باحثو جوجل الورقة الأساسية في عام 2022. لم يصبح الأمر سائدًا حتى الآن لأنه كان يتطلب الهندسة المعمارية المناسبة لجعله يعمل على نطاق واسع.

إليك النسخة المختصرة من كيفية عمله. بدلاً من جعل النموذج الكبير والقوي يقوم بكل العمل بمفرده، تربطه بنموذج “مسود” صغير وسريع. المسود سريع ورخيص — يتنبأ بعدة رموز مرة واحدة في وقت أقل مما يستغرقه النموذج الرئيسي لإنتاج رمز واحد فقط. ثم يتحقق النموذج الكبير من جميع تلك التخمينات في تمريرة واحدة. إذا كانت التخمينات صحيحة، تحصل على التسلسل الكامل مقابل تمريرة أمامية واحدة. وفقًا لجوجل، “إذا وافق النموذج المستهدف على المسودة، فإنه يقبل التسلسل بأكمله في تمريرة أمامية واحدة — ويولد حتى رمزًا إضافيًا خاصًا به أثناء العملية.” لا يُضحى بشيء: النموذج الكبير — نسخة جيمّا 4 ذات 31 مليار وحدة كثيفة، على سبيل المثال — لا يزال يتحقق من كل رمز، وجودة المخرجات متطابقة. أنت فقط تستغل قوة الحوسبة غير المستخدمة التي كانت جالسة غير مستعملة خلال الأجزاء البطيئة. تقول جوجل إن نماذج المسودات تشترك في ذاكرة KV الخاصة بالنموذج المستهدف — وهي بنية ذاكرة تخزن السياق المعالج بالفعل — لذلك لا تضيع الوقت في إعادة حساب أشياء يعرفها النموذج الأكبر بالفعل. بالنسبة لنماذج الحافة الأصغر المصممة للهواتف وأجهزة Raspberry Pi، قام الفريق حتى ببناء تقنية تجميع فعالة لخفض زمن التوليد بشكل أكبر. هذه ليست المحاولة الوحيدة التي قامت بها صناعة الذكاء الاصطناعي لموازاة توليد النصوص. نماذج اللغة المعتمدة على الانتشار — مثل Mercury من Inception Labs — جربت نهجًا مختلفًا تمامًا: بدلاً من التنبؤ برمز واحد في كل مرة، يبدأون بضوضاء ويقومون بتنقيح المخرجات بشكل تكراري. هذا سريع على الورق، لكن نماذج الانتشار لم تتمكن من مطابقة جودة نماذج الترانسفورمر التقليدية، مما جعلها أكثر فضولًا بحثيًا منها أداة عملية. فك التشفير التكهني مختلف لأنه لا يغير النموذج الأساسي على الإطلاق. إنه تحسين في الأداء، وليس استبدالًا للهندسة المعمارية. نفس جيمّا 4 التي كنت تستخدمها بالفعل تصبح أسرع. الفائدة العملية حقيقية. نموذج جيمّا 4 26 مليار وحدة يعمل على بطاقة رسومات Nvidia RTX Pro 6000 المكتبية بسرعة تقريبا ضعف الرموز في الثانية مع تفعيل مسود MTP، وفقًا لمعايير جوجل الخاصة. على Apple Silicon، تتيح أحجام الدُفعات من 4 إلى 8 طلبات تسريعات حوالي 2.2 ضعف. ليس بالضبط الحد الأقصى 3 أضعاف في كل سيناريو، لكنه لا يزال فرقًا مهمًا بين “قليل الاستخدام” و"سريع بما يكفي للعمل".

السياق هنا مهم. عندما فاجأ النموذج الصيني DeepSeek السوق في يناير 2025 — مسحًا 600 مليار دولار من قيمة Nvidia السوقية في يوم واحد — كانت الدرس الأساسي هو أن مكاسب الكفاءة يمكن أن تكون أقوى من القوة الحاسوبية الخام. تشغيل الأذكى يتفوق على إلقاء المزيد من الأجهزة في المشكلة. مسودات جوجل لـ MTP خطوة أخرى في هذا الاتجاه، ولكن موجهة مباشرة نحو السوق الاستهلاكية. صناعة الذكاء الاصطناعي بأكملها الآن مثل مثلث يأخذ في الاعتبار الاستنتاج، والتدريب، والذاكرة. كل تقدم في أي من هذه المجالات يميل إلى تعزيز أو صدمة النظام البيئي بأكمله. كانت طريقة تدريب DeepSeek (تحقيق نماذج قوية بأجهزة منخفضة النهاية) مثالاً واحدًا، بينما كانت ورقة Google’s TurboQuant (تصغير ذاكرة الذكاء الاصطناعي دون فقدان الجودة) مثالًا آخر. كلاهما أدى إلى انهيار الأسواق بينما كانت الشركات تحاول معرفة ما يجب القيام به. تقول جوجل إن المسود يفتح “استجابة محسنة: تقليل الكمون بشكل كبير للدردشة في الوقت الحقيقي، وتطبيقات الصوت الغامرة، وسير العمل الوكيل” — المهام التي تتطلب زمن استجابة منخفض ليشعر المستخدم بأنها مفيدة على الإطلاق. تتضح حالات الاستخدام بسرعة: مساعد برمجي محلي لا يتأخر؛ واجهة صوتية ترد قبل أن تنسى ما طلبته؛ سير عمل وكيل لا يجعلك تنتظر ثلاث ثوانٍ بين الخطوات. كل ذلك على أجهزة تمتلكها بالفعل. تتوفر مسودات MTP الآن على Hugging Face و Kaggle و Ollama، بموجب ترخيص Apache 2.0. وتعمل مع vLLM و MLX و SGLang و Hugging Face Transformers مباشرة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
574.58K درجة الشعبية
#
BTCPullback
106.32M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
43.84K درجة الشعبية
#
CLARITYActStalled
3.28M درجة الشعبية
#
CryptoStocksRally
1.42M درجة الشعبية

تثبيت

خريطة الموقع

وجدت جوجل طريقة لجعل الذكاء الاصطناعي المحلي أسرع حتى 3 مرات — بدون الحاجة إلى أجهزة جديدة

باختصار

المواضيع الرائجة

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

تثبيت