في سباق الذكاء الاصطناعي الذي تجاوزت فيه معاملات النماذج الكبرى تريليونات، يظل قوة الحوسبة على وحدات المعالجة الرسومية (GPU) محور التركيز، لكن مكونًا أكثر خفاءً ولكنه يحدد الحد الأقصى للقدرة أصبح نقطة تنافسية رئيسية في الصناعة — الذاكرة عالية النطاق الترددي (High Bandwidth Memory, HBM). إذا اعتبرنا الـ GPU محركًا فائق الأداء يضم عشرات الآلاف من الأسطوانات، فإن الـ HBM هو نظام الوقود الذي يمده باستمرار بالبيانات. وإذا لم يواكب نظام التزويد، فلن يتمكن أقوى محرك من العمل إلا بشكل فارغ.

يدرك القطاع على نطاق واسع أن عنق الزجاجة في قوة الحوسبة للذكاء الاصطناعي لم يعد يقتصر على الوحدة الحسابية نفسها، بل يتوقف أكثر على كفاءة نقل البيانات. تظهر البيانات أن استهلاك الطاقة لنقل البيانات في البنى التقليدية غالبًا ما يشكل 60%-80% من إجمالي استهلاك النظام. وفي سيناريوهات الاستدلال، قد تصل نسبة استغلال الـ GPU إلى 1% فقط. والعامل الحاسم وراء ذلك هو عرض النطاق الترددي للذاكرة.

بفضل تقنيات التكديس ثلاثي الأبعاد (3D stacking) وتقنية الثقوب الدقيقة (TSV)، حققت الـ HBM معدل عرض نطاق ترددي وكفاءة طاقة يتجاوز بكثير الذاكرة التقليدية، وأصبحت معيارًا أساسيًا لمسرعات الذكاء الاصطناعي من NVIDIA و AMD و Google وغيرها.

المبدأ التقني: كيف تعيد الـ HBM تشكيل قناة البيانات بين الـ GPU والذاكرة

من "سيارة سباق أفقية" إلى "مصعد عمودي"

الـ HBM ليست نوعًا جديدًا من وسائط التخزين، بل مجموعة من المعايير التقنية والتعبئة التي تحدد "كيفية ربط الـ DRAM بسرعة عالية جدًا". يمكن تفكيك مسارها التكنولوجي إلى ثلاثة مستويات:

التكديس ثلاثي الأبعاد — تكديس شرائح الـ DRAM متعددة الطبقات بشكل عمودي (الطبعات السائدة حاليًا من 8 إلى 12 طبقة، وHBM4 تم التقدم بها إلى 16 طبقة)، مما يضاعف كثافة التخزين وعدد القنوات الموازية على نفس المساحة الفيزيائية.

الثقوب الدقيقة (TSV) — حفر ثقوب دقيقة قطرها 5-10 ميكرومتر داخل كل طبقة من شرائح الـ DRAM، وملئها بمواد موصلة لتشكيل قنوات عمودية، مما يتيح تواصل بين الطبقات بمئات الآلاف من الاتصالات. بالمقارنة مع الأسلاك التقليدية على لوحات الدوائر المطبوعة (PCB)، التي تمتد لسنوات أو أمتار، فإن مسافة نقل الإشارة عبر TSV تقل إلى ميكرومترات، مما يقلل بشكل كبير من تدهور الإشارة والكمون.

الطبقة الوسيطة (Interposer) — تربط تكديس الـ HBM بواسطة نتوءات دقيقة مع طبقة وسيطة من السيليكون، والتي تتصل بدورها برقائق الـ GPU/CPU على مسافات قصيرة جدًا، مكونة وحدة تعبئة موحدة. يتم تحقيق هذا التكامل عبر تقنيات التعبئة المتقدمة مثل CoWoS و2.5D.

الاختراق الرئيسي لهذا الهيكل هو عرض الناقل. عادةً، يكون عرض الناقل في تكديس الـ HBM حوالي 1024 بت، ويمكن أن يتوسع إلى 2048 بت مع HBM3E. على سبيل المثال، فإن وحدة الـ HBM3E التي تنتجها SK Hynix بسعة 24 جيجابايت، وتوفر عرض نطاق يتجاوز 1 تيرابايت في الثانية. بالمقارنة، فإن تقنية GDDR التقليدية تكون بعرض 32 بت (لـ وحدة واحدة) أو 384 بت (لعدة وحدات مجمعة)، مع فارق كبير في قدرة نقل البيانات.

تصميم الـ HBM يعتمد على مبدأ "عرض نطاق واسع وبطء" — حيث يتم استبدال السرعة العالية بعدد كبير من القنوات الموازية، كل منها يعمل بتردد منخفض نسبيًا، مما يحسن من كفاءة الطاقة بشكل ملحوظ مقارنةً بالتصاميم عالية التردد. أما GDDR، فيعتمد على "عرض ضيق وسريع" — حيث يضغط على عرض النطاق عبر تردد أعلى وعدد أقل من القنوات. هاتان الفلسفتان تتوافقان مع سيناريوهات مختلفة: الـ HBM يركز على أقصى معدل نقل، وGDDR يوازن بين الأداء والتكلفة.

HBM مقابل GDDR6: مواجهة "عرض واسع وبطء" ضد "عرض ضيق وسريع"

كلاهما من عائلة ذاكرة الـ DRAM، والهدف الأساسي منهما هو تزويد الـ GPU بقنوات وصول البيانات، لكنهما يختلفان جوهريًا في الأهداف، الأداء، وتكاليف التصنيع.

عرض النطاق: يمكن أن تصل سرعة الـ HBM3E إلى 1.2 تيرابايت في الثانية، ومن المتوقع أن تتجاوز HBM4 ذلك إلى أكثر من 2.0 تيرابايت في الثانية. أما GDDR6X، فحدودها حوالي 1 تيرابايت في الثانية، وتقترب من الحد الفيزيائي في المنتجات الرائدة. من ناحية كفاءة الطاقة لكل وحدة عرض نطاق، فإن الـ HBM يتفوق بشكل واضح، مما يترجم إلى فوائد مباشرة في تكاليف التشغيل لمراكز البيانات التي تعتمد على الذكاء الاصطناعي.

استهلاك الطاقة والكمون: نظرًا لوجود مسارات عمودية قصيرة جدًا عبر TSV، فإن استهلاك الـ HBM أقل بحوالي 30% من استهلاك GDDR5. من ناحية الكمون، تعتمد GDDR على خطوط PCB والتواصل مع الـ GPU، ويكون الكمون عادة في نطاق الميكروثانية؛ بينما الـ HBM يدمج الذاكرة مباشرة في رقاقة الـ GPU، مما يقلل الكمون إلى النانوسكند. على الرغم من أن الـ HBM قد يكون لديه تأخير عشوائي أعلى قليلاً عند أعلى معدلات النقل، إلا أن الأداء المتوازي الكبير الذي يقدمه في عمليات التدفق الكبيرة (مثل التدريب والاستدلال في الذكاء الاصطناعي) هو العامل الحاسم.

التكلفة: من أبرز عيوب الـ HBM. وفقًا للبيانات الصناعية، فإن تكلفة الـ GB الواحد من الـ HBM تتجاوز 25 دولارًا، بينما GDDR6 تتراوح بين 5 و8 دولارات. وتصل نسبة الـ HBM من تكلفة GPU عالية الأداء إلى 60%-80%. من ناحية أخرى، فإن تكلفة الـ GDDR6 لكل وحدة عرض نطاق تعتبر أكثر كفاءة من حيث السعر، خاصةً عندما لا يكون الحد الأقصى للعرض مطلوبًا بشكل كبير.

الملخص: اختيار بين الـ HBM وGDDR هو في جوهره توازن بين الأداء والتكلفة. الـ HBM موجه للسيناريوهات التي تتطلب "تجاوز عتبة معينة من عرض النطاق" — مثل استدلال نماذج ضخمة تتجاوز تريليونات المعاملات، حيث أن أقل من ذلك، لن يعمل النظام بكفاءة. أما GDDR6، فهي مناسبة للسيناريوهات التي تتطلب "أداء مقبول مع أقل تكلفة"، مثل نشر نماذج صغيرة ومتوسطة الحجم (7-13 مليار معامل).

هاتان التقنيتان ليستا بديلتين، وإنما تتجهان لمستويات مختلفة من الطلب، لكن في سياقات التدريب والاستدلال الواسعة، تتفوق الـ HBM تدريجيًا على الـ GDDR وتدفعها للخروج من المنافسة الأساسية.

جدار الذاكرة: لماذا تزداد حاجة نماذج الذكاء الاصطناعي الأكبر حجمًا بشكل أسي للـ HBM

لفهم سبب الزيادة الحادة في الطلب على الـ HBM، يجب العودة إلى أحد التحديات الأساسية في حسابات الذكاء الاصطناعي — "جدار الذاكرة" (Memory Wall).

تفاوت معدل النمو في الحوسبة وعرض النطاق الترددي

على مدى الثلاثين عامًا الماضية، اتبعت قوة المعالجة نمط قانون مور، حيث تتضاعف كل 18-24 شهرًا؛ بينما يتقدم عرض النطاق الترددي للذاكرة ببطء أكبر. وفقًا للأبحاث حول جدار الذاكرة والذكاء الاصطناعي، فإن معدل نمو قوة المعالجة يزداد حوالي 3 أضعاف كل عامين، بينما ينمو عرض النطاق الترددي للذاكرة بنسبة 1.6 ضعف فقط، وتزيد شبكة الاتصال بين المكونات بشكل أقل. هذا يعني أن كل ترقية في المعالجة تقلل من قيمة قدرة نقل البيانات.

ويظهر هذا التناقض بشكل خاص أثناء الاستدلال. في مرحلة التدريب، تعتمد على عمليات المصفوفات (GEMM) ذات كثافة حسابية عالية، مع كثافة حساب تصل إلى أكثر من 100 FLOPs/بايت؛ أما في مرحلة الاستدلال، فهي تعتمد على عمليات ضرب المصفوفة في متجه (GEMV)، مع كثافة حساب أقل من 2 FLOPs/بايت. وكلما انخفضت كثافة الحساب، زاد الاعتماد على عرض النطاق الترددي للذاكرة، مما يجعل جدار النطاق الترددي هو المحدد الرئيسي للأداء.

عبء النقل في نماذج كبيرة أثناء الاستدلال

عملية استدلال نماذج ضخمة تتلخص في: عند توليد رمز واحد (token)، يجب تحميل جميع معلمات النموذج من الذاكرة إلى وحدة الحساب. على سبيل المثال، نموذج Llama 3 70B يتطلب حوالي 140 جيجابايت من الوزن عند دقة FP16. ولكل رمز يُولد، يتم نقل هذه الـ 140 جيجابايت مرة واحدة. وإذا أردت أن تنتج 30 رمز في الثانية، فإن عرض النطاق الترددي بين الـ HBM وداخلية المعالج يجب أن يدعم حوالي 4.2 تيرابايت في الثانية من النقل.

وهذا الطلب يقترب أو يتجاوز حدود الأجهزة الحالية. على سبيل المثال، فإن عرض النطاق في بطاقة NVIDIA H100 SXM5 هو 3.35 تيرابايت في الثانية. أي أن حتى أقوى بطاقات الذكاء الاصطناعي تواجه ضغطًا كبيرًا عند التعامل مع نماذج تريليونات المعاملات. ومع زيادة حجم المعاملات إلى مئات المليارات أو تريليونات، ستتضاعف الحاجة إلى عرض النطاق بشكل خطي أو حتى أسي.

القيود المزدوجة على السعة والنطاق

السعة أيضًا مهمة. إذا تجاوز حجم المعاملات سعة الـ HBM على بطاقة واحدة، فسيكون من الضروري تقسيم النموذج عبر عدة بطاقات، وهو ما يُعرف بالتوازي في التنسور. لكن هذا يضيف عبء تواصل بين البطاقات، مما قد يقلل من الكفاءة الإجمالية.

لذا، فإن قيمة الـ HBM تظهر في مستويين: عرض النطاق يحدد سرعة الاستدلال وزمن الاستجابة، والسعة تحدد ما إذا كان النموذج يمكن أن يُحمل على بطاقة واحدة، وعدد البطاقات اللازمة، وتكلفة التواصل بين البطاقات.

المسار الصناعي واضح الآن: الـ HBM يتحول من خيار فخم إلى مكون أساسي في قوة الحوسبة للذكاء الاصطناعي. وفقًا لبيانات TrendForce، فإن الطلب على الـ HBM سيزيد بنسبة تتجاوز 130% في 2025، وأكثر من 70% في 2026، ليصبح جزءًا لا يتجزأ من سلسلة التوريد في الذكاء الاصطناعي.

تأثيرات على كامل سلسلة الصناعة: من اختيار التقنية إلى سوق يواجه اختلالًا في العرض والطلب

نمو السوق

نمو سوق الـ HBM فاق التوقعات المبكرة. وفقًا لبيانات SEMI الصينية، من المتوقع أن ينمو حجم السوق بنسبة 58% ليصل إلى 54.6 مليار دولار بحلول 2026، ليشكل حوالي 40% من سوق الـ DRAM بالكامل. تتوقع شركة Micron أن معدل النمو السنوي المركب (TAM) للـ HBM سيكون حوالي 40%، ليصل إلى أكثر من 100 مليار دولار بحلول 2028، متجاوزًا حجم سوق الـ DRAM في 2024.

قيود العرض

لكن الطلب المتزايد بشكل حاد يتصادم مع قيود الإنتاج. وفقًا لبيانات SEMI، رغم أن شركات مثل Samsung و SK Hynix و Micron حولت 70% من قدراتها الجديدة أو القابلة للتخصيص إلى إنتاج الـ HBM، فإن الفجوة في القدرة الإنتاجية لا تزال تصل إلى 50-60%.

السبب هو أن تصنيع الـ HBM يتطلب تكنولوجيا عالية جدًا، بما يشمل عمليات تصنيع متقدمة جدًا (مثل الانتقال إلى تقنية 1β نانومتر)، بالإضافة إلى عمليات معقدة مثل الحفر بـ TSV، والتوصيل الدقيق، والتعبئة على مستوى الرقاقة. على سبيل المثال، فإن قدرة التعبئة عبر تقنية CoWoS، التي تعتبر مركزًا لدمج الـ HBM مع الـ GPU، من المتوقع أن تتوسع إلى أكثر من 125,000 لوح شهريًا بحلول نهاية 2026، بزيادة حوالي 79%، لكن هذا لا يكفي لتلبية الطلب من شركات كـ NVIDIA و AMD و Broadcom.

مخاطر سلسلة التوريد والأسعار

الفجوة في القدرة الإنتاجية تظهر مباشرة في الأسعار. ارتفع سعر وحدة الـ HBM3E بنسبة 5-10% خلال 2025. والأهم، أن تحويل معظم القدرات الإنتاجية إلى الـ HBM أدى إلى تقليص كبير في إمدادات ذاكرة DDR للمستهلكين، مع توقعات باستمرار ارتفاع الأسعار حتى نهاية 2026. نقص الـ HBM يضغط على باقي سلسلة التوريد للذاكرة.

في يونيو 2026، أكد Jensen Huang أن شركات SK Hynix و Samsung و Micron بدأت في إنتاج وتوريد شرائح الـ HBM4 بكميات كبيرة، وبدأت Samsung في فبراير 2026 في الإنتاج الضخم. ومع ذلك، فإن الفجوة بين العرض والطلب لا تزال عند حوالي 50% خلال 2025-2026. التوازن في السوق لن يتحقق على المدى القصير، حيث أن وتيرة التوسع في الإنتاج، وقيود التعبئة، واحتياجات الحوسبة المتزايدة تخلق وضعًا ديناميكيًا ومتوترًا باستمرار.

الخاتمة

من الابتكار في المبادئ التقنية، إلى الاعتماد الحتمي على قدرات الحوسبة في سيناريوهات الذكاء الاصطناعي، ومن خلال اختلالات العرض والطلب في كامل سلسلة الصناعة، تطورت الـ HBM من فرع تقني في الذاكرة إلى نقطة تنافس أساسية في بنية الذكاء الاصطناعي التحتية.

تعود أهمية الـ HBM في التدريب والاستدلال إلى منطق حسابي أساسي: عندما يتجاوز حجم معاملات النموذج عتبة معينة، فإن عرض النطاق الترددي لم يعد خيارًا "تحسينيًا"، بل أصبح عامل تمكين — إذا لم يتوفر، فلن يعمل النظام بكفاءة. على الرغم من أن GDDR6 تتفوق من حيث التكلفة، إلا أن تصميمها الضيق وسرعتها العالية لا يمكن أن يطابق كثافة العمليات التي تتطلبها نماذج تريليونات المعاملات، خاصة من حيث عرض النطاق وكفاءة الطاقة. هذا الاختلاف الهيكلي يحدد أن الـ HBM وGDDR ليستا مجرد منافسين، بل تتجهان لمستويات مختلفة من الطلب، مع أن الـ HBM يتفوق في السيناريوهات التي تتطلب أعلى أداء.

أما مستقبلًا، فإن إنتاج الـ HBM4، مع زيادة عرض النطاق إلى أكثر من 2 تيرابايت في الثانية، وتكديس 16 طبقة، واعتماد تقنيات تعبئة جديدة، سيعزز من قدرات الـ HBM. لكن من الجدير بالملاحظة أن شركات مثل Huawei بدأت في استكشاف طرق لتقليل الاعتماد على الـ HBM عبر تحسينات خوارزمية، وابتكارات في الذاكرة SRAM، والهياكل المدمجة للذاكرة والحوسبة. مدى قدرة الـ HBM على الحفاظ على ريادتها في ظل التطورات التكنولوجية، ومدى تلبية قدراتها الإنتاجية لاحتياجات السوق، سيكونان من أهم المتغيرات التي ستحدد مستقبل سلسلة قيمة الحوسبة في الذكاء الاصطناعي خلال السنوات القادمة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateIPOAccessSpaceX
5.29M درجة الشعبية
#
AnthropicReleasesFable5Model
642.27K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
56.93K درجة الشعبية
#
BlackRockReducesBTCIncreasesETH
288.86M درجة الشعبية
#
SpaceXIPOAttractsOver250BillionInOrders
1.39M درجة الشعبية

مُثبت

خريطة الموقع

HBM مقابل GDDR: كيف تتجاوز الذاكرة عالية النطاق الترددي جدار الذاكرة في تدريب واستنتاج الذكاء الاصطناعي

المبدأ التقني: كيف تعيد الـ HBM تشكيل قناة البيانات بين الـ GPU والذاكرة

HBM مقابل GDDR6: مواجهة "عرض واسع وبطء" ضد "عرض ضيق وسريع"

جدار الذاكرة: لماذا تزداد حاجة نماذج الذكاء الاصطناعي الأكبر حجمًا بشكل أسي للـ HBM

تأثيرات على كامل سلسلة الصناعة: من اختيار التقنية إلى سوق يواجه اختلالًا في العرض والطلب

الخاتمة

المواضيع الرائجة

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

BlackRockReducesBTCIncreasesETH

SpaceXIPOAttractsOver250BillionInOrders

مُثبت