العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
وجدت جوجل طريقة لجعل الذكاء الاصطناعي المحلي أسرع حتى 3 مرات — بدون الحاجة إلى أجهزة جديدة
باختصار
تشغيل نموذج ذكاء اصطناعي على حاسوبك الخاص أمر رائع — حتى لا يكون كذلك. الوعد هو الخصوصية، وعدم وجود رسوم اشتراك، وعدم خروج البيانات من جهازك. الواقع، بالنسبة لمعظم الناس، هو مشاهدة مؤشر النص يتكرر لمدة خمس ثوانٍ بين الجمل. هذا العنق الزجاجي له اسم: سرعة الاستنتاج. وليس له علاقة بمدى ذكاء النموذج. إنه مشكلة في الأجهزة. نماذج الذكاء الاصطناعي القياسية تولد نصًا عبارة عن قطعة كلمة — تسمى رمزًا — في كل مرة. يجب على الأجهزة نقل مليارات المعلمات من الذاكرة إلى وحدات الحوسبة الخاصة بها فقط لإنتاج كل رمز واحد. إنه بطيء بطبيعته. على الأجهزة الاستهلاكية، الأمر مؤلم.
الحيلة التي يلجأ إليها معظم الناس هي تشغيل نماذج أصغر وأضعف — أو نسخ مضغوطة بشكل كبير، تسمى نماذج مُكممة، تضحّي بجزء من الجودة مقابل السرعة. لا حل من الحلين مثالي. تحصل على شيء يعمل، لكنه ليس النموذج الذي أردته فعلاً. الآن لدى جوجل فكرة مختلفة. أطلقت مؤخرًا مسودات التنبؤ متعدد الرموز (MTP) لعائلة نماذج جيمّا 4 المفتوحة — تقنية يمكن أن توفر تسريعًا يصل إلى 3 أضعاف دون المساس بجودة النموذج أو قدرته على التفكير على الإطلاق.
النهج يُسمى فك التشفير التكهني، وهو موجود كمفهوم منذ سنوات. نشر باحثو جوجل الورقة الأساسية في عام 2022. لم يصبح الأمر سائدًا حتى الآن لأنه كان يتطلب الهندسة المعمارية المناسبة لجعله يعمل على نطاق واسع.
إليك النسخة المختصرة من كيفية عمله. بدلاً من جعل النموذج الكبير والقوي يقوم بكل العمل بمفرده، تربطه بنموذج “مسود” صغير وسريع. المسود سريع ورخيص — يتنبأ بعدة رموز مرة واحدة في وقت أقل مما يستغرقه النموذج الرئيسي لإنتاج رمز واحد فقط. ثم يتحقق النموذج الكبير من جميع تلك التخمينات في تمريرة واحدة. إذا كانت التخمينات صحيحة، تحصل على التسلسل الكامل مقابل تمريرة أمامية واحدة. وفقًا لجوجل، “إذا وافق النموذج المستهدف على المسودة، فإنه يقبل التسلسل بأكمله في تمريرة أمامية واحدة — ويولد حتى رمزًا إضافيًا خاصًا به أثناء العملية.” لا يُضحى بشيء: النموذج الكبير — نسخة جيمّا 4 ذات 31 مليار وحدة كثيفة، على سبيل المثال — لا يزال يتحقق من كل رمز، وجودة المخرجات متطابقة. أنت فقط تستغل قوة الحوسبة غير المستخدمة التي كانت جالسة غير مستعملة خلال الأجزاء البطيئة. تقول جوجل إن نماذج المسودات تشترك في ذاكرة KV الخاصة بالنموذج المستهدف — وهي بنية ذاكرة تخزن السياق المعالج بالفعل — لذلك لا تضيع الوقت في إعادة حساب أشياء يعرفها النموذج الأكبر بالفعل. بالنسبة لنماذج الحافة الأصغر المصممة للهواتف وأجهزة Raspberry Pi، قام الفريق حتى ببناء تقنية تجميع فعالة لخفض زمن التوليد بشكل أكبر. هذه ليست المحاولة الوحيدة التي قامت بها صناعة الذكاء الاصطناعي لموازاة توليد النصوص. نماذج اللغة المعتمدة على الانتشار — مثل Mercury من Inception Labs — جربت نهجًا مختلفًا تمامًا: بدلاً من التنبؤ برمز واحد في كل مرة، يبدأون بضوضاء ويقومون بتنقيح المخرجات بشكل تكراري. هذا سريع على الورق، لكن نماذج الانتشار لم تتمكن من مطابقة جودة نماذج الترانسفورمر التقليدية، مما جعلها أكثر فضولًا بحثيًا منها أداة عملية. فك التشفير التكهني مختلف لأنه لا يغير النموذج الأساسي على الإطلاق. إنه تحسين في الأداء، وليس استبدالًا للهندسة المعمارية. نفس جيمّا 4 التي كنت تستخدمها بالفعل تصبح أسرع. الفائدة العملية حقيقية. نموذج جيمّا 4 26 مليار وحدة يعمل على بطاقة رسومات Nvidia RTX Pro 6000 المكتبية بسرعة تقريبا ضعف الرموز في الثانية مع تفعيل مسود MTP، وفقًا لمعايير جوجل الخاصة. على Apple Silicon، تتيح أحجام الدُفعات من 4 إلى 8 طلبات تسريعات حوالي 2.2 ضعف. ليس بالضبط الحد الأقصى 3 أضعاف في كل سيناريو، لكنه لا يزال فرقًا مهمًا بين “قليل الاستخدام” و"سريع بما يكفي للعمل".
السياق هنا مهم. عندما فاجأ النموذج الصيني DeepSeek السوق في يناير 2025 — مسحًا 600 مليار دولار من قيمة Nvidia السوقية في يوم واحد — كانت الدرس الأساسي هو أن مكاسب الكفاءة يمكن أن تكون أقوى من القوة الحاسوبية الخام. تشغيل الأذكى يتفوق على إلقاء المزيد من الأجهزة في المشكلة. مسودات جوجل لـ MTP خطوة أخرى في هذا الاتجاه، ولكن موجهة مباشرة نحو السوق الاستهلاكية. صناعة الذكاء الاصطناعي بأكملها الآن مثل مثلث يأخذ في الاعتبار الاستنتاج، والتدريب، والذاكرة. كل تقدم في أي من هذه المجالات يميل إلى تعزيز أو صدمة النظام البيئي بأكمله. كانت طريقة تدريب DeepSeek (تحقيق نماذج قوية بأجهزة منخفضة النهاية) مثالاً واحدًا، بينما كانت ورقة Google’s TurboQuant (تصغير ذاكرة الذكاء الاصطناعي دون فقدان الجودة) مثالًا آخر. كلاهما أدى إلى انهيار الأسواق بينما كانت الشركات تحاول معرفة ما يجب القيام به. تقول جوجل إن المسود يفتح “استجابة محسنة: تقليل الكمون بشكل كبير للدردشة في الوقت الحقيقي، وتطبيقات الصوت الغامرة، وسير العمل الوكيل” — المهام التي تتطلب زمن استجابة منخفض ليشعر المستخدم بأنها مفيدة على الإطلاق. تتضح حالات الاستخدام بسرعة: مساعد برمجي محلي لا يتأخر؛ واجهة صوتية ترد قبل أن تنسى ما طلبته؛ سير عمل وكيل لا يجعلك تنتظر ثلاث ثوانٍ بين الخطوات. كل ذلك على أجهزة تمتلكها بالفعل. تتوفر مسودات MTP الآن على Hugging Face و Kaggle و Ollama، بموجب ترخيص Apache 2.0. وتعمل مع vLLM و MLX و SGLang و Hugging Face Transformers مباشرة.