HBM vs GDDR: Bagaimana High-Bandwidth Memory Menembus Batas "Memory Wall" pada Pelatihan dan Inferensi AI

Pasar
Diperbarui: 2026/06/10 05:33

Dalam perlombaan AI dengan parameter triliunan, kekuatan komputasi GPU mungkin menjadi sorotan utama, namun ada satu komponen yang lebih tersembunyi dan kini diam-diam menjadi medan strategis industri—High Bandwidth Memory (HBM). Jika GPU diibaratkan sebagai mesin super dengan ribuan silinder, maka HBM adalah sistem bahan bakar yang memastikan aliran data tetap lancar. Tidak peduli seberapa kuat mesinnya, ia hanya akan diam jika suplai bahan bakar tidak mampu mengikuti kebutuhan.

Konsensus industri mulai bergeser: bottleneck pada kekuatan komputasi AI kini tidak lagi terbatas pada unit komputasi itu sendiri, melainkan semakin terletak pada efisiensi transfer data. Data menunjukkan bahwa pada arsitektur komputasi tradisional, pergerakan data dapat menyumbang 60%-80% dari konsumsi energi sistem secara keseluruhan. Dalam skenario inferensi, tingkat idle GPU dapat mencapai hingga 99%. Faktor pembatas utama di balik hal ini adalah bandwidth memori.

Dengan memanfaatkan teknologi 3D stacking dan Through-Silicon Via (TSV), HBM mampu mencapai bandwidth dan efisiensi energi per satuan area yang jauh lebih tinggi dibandingkan memori konvensional, sehingga menjadi fitur standar pada akselerator AI dari NVIDIA, AMD, Google, dan raksasa industri lainnya.

Prinsip Teknis: Bagaimana HBM Membentuk Ulang Kanal Data Antara GPU dan Memori

Dari "Lintasan Datar" ke "Lift Vertikal"

HBM bukanlah media penyimpanan baru; melainkan seperangkat spesifikasi antarmuka dan kemasan yang mendefinisikan "cara menghubungkan DRAM dengan bandwidth sangat tinggi." Tumpukan teknologi utamanya terbagi menjadi tiga lapisan:

3D Stacking — Beberapa lapisan chip DRAM ditumpuk secara vertikal (konfigurasi mainstream saat ini 8 hingga 12 lapisan, dengan HBM4 melaju ke 16 lapisan), sehingga kepadatan penyimpanan dan jumlah kanal paralel meningkat dalam satu area fisik yang sama.

Through-Silicon Via (TSV) — Lubang mikroskopis berdiameter hanya 5-10 mikron dibuat di setiap lapisan DRAM dan diisi dengan material konduktif untuk membentuk kanal vertikal, memungkinkan puluhan ribu interkoneksi antar lapisan. Hal ini sangat kontras dengan wiring PCB tradisional, di mana panjang jalur diukur dalam sentimeter atau meter, sementara jarak transmisi sinyal TSV dipadatkan ke skala mikron, sehingga sangat mengurangi atenuasi dan latensi sinyal.

Silicon Interposer — Tumpukan HBM terhubung ke silicon interposer melalui micro bump, yang kemudian menghubungkan ke chip GPU/CPU dalam jarak sangat pendek, membentuk satu modul kemasan terpadu. Seluruh struktur ini menggunakan teknologi kemasan 2.5D canggih seperti CoWoS untuk integrasi kepadatan tinggi.

Terobosan arsitektur ini terletak pada lebar bus. Satu tumpukan HBM biasanya menawarkan bus 1024-bit, sementara HBM3E dapat meningkat hingga 2048 bit. Sebagai contoh, chip HBM3E terbaru dari SK hynix yang diproduksi massal menawarkan kapasitas 24GB dan bandwidth lebih dari 1TB/s. Sebagai perbandingan, solusi GDDR tradisional hanya menawarkan 32 bit per chip (atau 384 bit dalam konfigurasi multi-chip), sehingga terdapat perbedaan kemampuan transfer data yang sangat signifikan.

Filosofi desain fundamental HBM adalah "lebar dan lambat"—total bandwidth dicapai melalui kanal paralel dalam jumlah besar, masing-masing berjalan pada frekuensi relatif rendah, sehingga efisiensi energi jauh lebih baik dibandingkan desain frekuensi tinggi. GDDR, di sisi lain, mengikuti logika "sempit dan cepat"—memaksimalkan bandwidth dari sedikit kanal dengan meningkatkan frekuensi operasi. Kedua pendekatan ini cocok untuk skenario aplikasi yang sepenuhnya berbeda: HBM mengejar throughput maksimum, sedangkan GDDR menyeimbangkan throughput dan biaya.

HBM vs GDDR6: Pertarungan "Lebar dan Lambat" vs "Sempit dan Cepat"

HBM dan GDDR6 sama-sama berasal dari keluarga memori DRAM, berfungsi sebagai kanal akses data untuk GPU, namun berbeda secara fundamental dalam tujuan desain, karakteristik performa, dan struktur biaya.

Bandwidth: HBM3E menawarkan hingga 1,2TB/s per tumpukan, dengan HBM4 generasi berikutnya diprediksi melampaui 2,0TB/s. GDDR6X mencapai sekitar 1TB/s per kartu, sudah mendekati batas fisik pada produk flagship. Namun, HBM jauh lebih unggul dalam efisiensi energi per satuan bandwidth, yang langsung berkontribusi pada keunggulan biaya operasional terukur dalam penerapan pusat data AI skala besar.

Daya dan Latensi: Berkat jalur vertikal TSV yang sangat pendek, HBM mengonsumsi sekitar 30% lebih sedikit daya dibandingkan GDDR5. Dalam hal latensi, GDDR mengandalkan jalur PCB untuk komunikasi dengan GPU, biasanya menghasilkan delay dalam skala mikrodetik; HBM, yang dikemas langsung di sebelah chip GPU, menekan latensi ke skala nanodetik. Perlu dicatat, latensi akses acak HBM sedikit lebih tinggi dibandingkan GDDR dalam skenario throughput ekstrem, namun untuk akses streaming paralel skala besar—mode utama pelatihan dan inferensi AI—throughput menjadi bottleneck krusial.

Biaya: Ini adalah kelemahan paling jelas dari HBM. Data industri menunjukkan HBM berharga lebih dari $25 per GB, sedangkan GDDR6 hanya sekitar $5-8 per GB. HBM bisa menyumbang 60%-80% dari total biaya GPU kelas atas. GDDR6 sebenarnya menawarkan performa biaya-per-bandwidth yang lebih baik—ketika bandwidth puncak absolut tidak dibutuhkan, GDDR6 jelas lebih ekonomis.

Kesimpulannya, memilih antara HBM dan GDDR pada dasarnya adalah pertimbangan batas performa versus kendala biaya. HBM sangat penting untuk skenario di mana "ambang bandwidth tertentu harus dipenuhi agar sistem dapat berjalan"—seperti inferensi pada model dengan parameter triliunan. Di bawah bandwidth tersebut, sistem tidak akan berfungsi secara optimal. GDDR6, sementara itu, melayani skenario di mana "performa yang dapat diterima dengan biaya minimum" menjadi prioritas, seperti penerapan model kecil hingga menengah (7B-13B parameter).

Keduanya bukan substitusi, melainkan jalur teknis paralel untuk kebutuhan berbeda. Namun, dalam pelatihan AI dan inferensi skala besar, keunggulan HBM secara bertahap mendorong GDDR keluar dari arena inti.

Dilema "Memory Wall": Mengapa Permintaan HBM Melonjak Eksponensial Seiring Model AI Membesar

Untuk memahami pertumbuhan permintaan HBM yang eksplosif, kita perlu meninjau kembali bottleneck fundamental dalam komputasi AI—"Memory Wall."

Celah yang Semakin Lebar Antara Pertumbuhan Komputasi dan Bandwidth

Selama tiga dekade terakhir, performa prosesor meningkat dua kali lipat setiap 18-24 bulan sesuai Hukum Moore, namun bandwidth memori tertinggal. Riset tentang AI dan memory wall menunjukkan komputasi model AI tumbuh sekitar 3x setiap dua tahun, sementara bandwidth memori hanya meningkat sekitar 1,6x, dan bandwidth interkoneksi lebih rendah lagi. Artinya, setiap peningkatan komputasi semakin menurunkan kapasitas transfer memori.

Kontradiksi ini sangat terasa dalam inferensi. Pelatihan bergantung pada perkalian matriks (GEMM) dengan kepadatan komputasi tinggi—intensitas aritmatika bisa melebihi 100+ FLOPs/byte. Inferensi, sebaliknya, berpusat pada perkalian matriks-vektor (GEMV), dengan intensitas aritmatika sering di bawah 2 FLOPs/byte. Semakin rendah intensitas aritmatika, semakin bergantung performa sistem pada bandwidth memori dibandingkan kekuatan komputasi—ini adalah efek "bandwidth wall."

"Beban Transfer" pada Inferensi Model Besar

Proses dasar inferensi model besar adalah: untuk setiap token yang dihasilkan, semua parameter model harus dimuat dari memori ke inti komputasi. Ambil contoh model Llama 3 70B: pada presisi FP16, bobotnya sekitar 140GB. Setiap token yang dihasilkan membutuhkan transfer seluruh 140GB parameter. Untuk memastikan pengalaman lancar menghasilkan 30 token per detik, bandwidth antara HBM dan inti komputasi harus mendukung sekitar 4,2TB transfer per detik.

Permintaan ini sudah mendorong hardware mainstream ke batasnya. NVIDIA H100 SXM5 menawarkan bandwidth HBM sebesar 3,35TB/s. Dengan kata lain, bahkan akselerator AI kelas atas pun hampir cukup untuk model dengan 70B parameter. Seiring model berkembang ke ratusan miliar, triliunan, dan seterusnya, kebutuhan bandwidth akan tumbuh secara linear—bahkan superlinear.

Kendala Ganda: Kapasitas dan Bandwidth

Kapasitas memori adalah faktor penting lainnya. Jika total parameter model melebihi kapasitas HBM pada satu GPU, model harus dibagi ke beberapa GPU untuk operasi paralel—metode yang dikenal sebagai tensor parallelism. Namun, pembagian ini menimbulkan bottleneck baru: komunikasi hasil intermediate antar GPU yang sering, yang pada akhirnya dapat menurunkan efisiensi keseluruhan.

Dengan demikian, nilai HBM terletak pada dua dimensi: bandwidth menentukan kecepatan inferensi single-card dan latensi minimum, sementara kapasitas menentukan apakah model dapat muat dalam satu kartu, berapa banyak kartu yang dibutuhkan, dan biaya komunikasi antar kartu.

Arah industri sudah jelas: HBM beralih dari "opsi premium" menjadi "konfigurasi standar" untuk kekuatan komputasi AI. Data TrendForce menunjukkan permintaan HBM akan tumbuh lebih dari 130% year-over-year pada 2025, dan terus meningkat lebih dari 70% pada 2026. HBM telah bertransformasi dari peran pendukung dalam pemrosesan grafis menjadi komponen inti yang tak tergantikan dalam rantai komputasi AI.

Dampak Industri: Dari Pilihan Teknis ke Ketidakseimbangan Pasar Supply-Demand

Ekspansi Pasar

Pertumbuhan pasar HBM melampaui prediksi awal sebagian besar institusi. Data SEMI China memproyeksikan pasar HBM akan tumbuh 58% menjadi $54,6 miliar pada 2026, hampir 40% dari total pasar DRAM. Micron memperkirakan TAM (Total Addressable Market) HBM akan tumbuh pada tingkat tahunan gabungan sekitar 40%, dari $35 miliar pada 2025 menjadi $100 miliar pada 2028—melampaui ukuran pasar DRAM secara keseluruhan di 2024.

Keterbatasan Supply yang Kaku

Namun, lonjakan permintaan bertabrakan dengan kapasitas supply-side yang kaku. Data SEMI menunjukkan bahwa meski Samsung, SK hynix, dan Micron telah mengalihkan 70% kapasitas baru/yang dapat disesuaikan ke produksi HBM, kekurangan kapasitas HBM secara keseluruhan tetap di kisaran 50%-60%.

Bottleneck berasal dari tingginya hambatan manufaktur HBM. Produksi membutuhkan teknologi proses DRAM canggih (vendor terdepan kini di node 1β nm), ditambah etching TSV, bonding micro bump, kemasan wafer-level, dan teknologi kemasan canggih lainnya. Kapasitas kemasan CoWoS TSMC—platform inti untuk integrasi HBM dan GPU—diproyeksikan meningkat menjadi lebih dari 125.000 wafer per bulan pada akhir 2026, naik sekitar 79% year-over-year, namun tetap belum memenuhi permintaan pesanan dari NVIDIA, AMD, Broadcom, dan lainnya.

Risiko Rantai Pasok dan Transmisi Harga

Kekurangan kapasitas tercermin langsung pada harga. Harga HBM3E naik 5%-10% selama 2025. Lebih penting lagi, seiring tiga produsen utama mengalihkan kapasitas ke HBM, supply memori DDR konsumen menyusut, dengan harga diprediksi terus naik hingga akhir 2026. Kekurangan HBM memengaruhi industri memori secara luas dengan menekan kapasitas.

Pada Juni 2026, Jensen Huang mengonfirmasi bahwa SK hynix, Samsung, dan Micron telah lolos sertifikasi dan mulai memasok chip HBM4 secara massal, dengan Samsung memimpin industri dengan memulai produksi massal HBM4 pada Februari 2026. Namun, meski ketiga raksasa memperluas kapasitas secara bersamaan, gap supply-demand HBM tetap sekitar 50% sepanjang 2025-2026. Mencapai keseimbangan supply-demand dalam jangka pendek masih sulit. Laju ekspansi upstream, bottleneck kapasitas kemasan, dan permintaan komputasi AI downstream yang cepat bersama-sama menciptakan lanskap supply-demand yang dinamis namun tetap ketat.

Kesimpulan

Dari inovasi teknologi fundamental, ketergantungan rigid pada skenario komputasi AI, hingga ketidakseimbangan supply-demand di seluruh rantai industri, HBM telah berevolusi dari cabang teknologi memori menjadi medan utama persaingan infrastruktur AI.

Tak tergantikannya HBM dalam pelatihan dan inferensi AI berakar pada prinsip komputasi dasar: begitu ukuran parameter model melewati ambang tertentu, bandwidth bukan lagi sekadar "optimisasi," melainkan "penggerak"—di bawah ambang tersebut, sistem tidak akan berjalan efektif. GDDR6 mungkin memiliki keunggulan biaya, namun arsitektur kanal sempit dan frekuensi tinggi tidak mampu memenuhi batas bandwidth dan efisiensi energi yang dibutuhkan untuk model dengan parameter triliunan. Perbedaan struktural ini menjadikan HBM dan GDDR bukan sekadar pesaing, melainkan solusi berlapis untuk kebutuhan berbeda di inti komputasi AI.

Ke depan, produksi massal HBM4 yang berkelanjutan (dengan bandwidth single-stack diprediksi melampaui 2TB/s), kematangan stacking 16 lapisan, dan teknologi kemasan baru seperti hybrid bonding akan semakin mendorong batas performa HBM. Namun, perlu dicatat bahwa perusahaan seperti Huawei sedang mengeksplorasi optimisasi algoritma untuk mengurangi ketergantungan pada HBM, dan alternatif seperti SRAM serta arsitektur compute-in-memory juga berkembang secara paralel. Apakah HBM dapat mempertahankan keunggulannya melalui iterasi teknologi, dan apakah bottleneck supply dapat dilonggarkan dalam siklus ekspansi mendatang, akan menjadi variabel paling penting yang perlu diamati dalam industri komputasi AI beberapa tahun ke depan.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Like Konten