AI กระแสคลื่นลูกใหม่กำลังขับเคลื่อนความต้องการหน่วยความจำและทำให้ราคาพุ่งสูงขึ้น แต่ภายนอกยังเป็นห่วงว่า HBM จะกลับไปเผชิญชะตากรรมแบบ “เป็นวัฏจักร” ซ้ำรอยในอดีตเหมือน DRAM กล่าวคือ หลังจากความต้องการพุ่งถึงจุดสูงสุดแล้วจะกลับตัวอย่างรวดเร็วหรือไม่ นักวิเคราะห์ด้านสถาปัตยกรรมเซมิคอนดักเตอร์ fin ระบุว่า เหตุผลเชิงตรรกะของดีมานด์ของ HBM ได้หลุดออกจากกฎเกณฑ์ของอุตสาหกรรมหน่วยความจำแบบดั้งเดิมไปแล้ว และกำลัง “รีพรซิ่ง” ผ่าน token
(แนวโน้มขาขึ้นของหน่วยความจำชะลอ? สถาบันประเมินว่าส่วนต่างปรับขึ้นใน Q2 แคบลงเหลือ 30% และยังคงลดความร้อนแรงลงในครึ่งปีหลัง)
หน่วยความจำยุค CPU: ของเสริมที่ “มีหรือไม่มีได้”
fin ชี้ว่า ในยุคที่ CPU เป็นตัวนำการคำนวณ บทบาทของหน่วยความจำ DDR ตลอดเวลาคือการเป็นตัวช่วย ไม่ใช่องค์ประกอบหลัก วิศวกร CPU ได้พัฒนาชุดเทคนิคสำหรับการกลบความล่าช้าของหน่วยความจำเอาไว้ ตั้งแต่การออกแบบซูเปอร์สเกลาร์ ไปจนถึงแคชหลายชั้น และการตั้งชื่อรีจิสเตอร์ใหม่ เพื่อให้โปรเซสเซอร์สามารถรักษาประสิทธิภาพสูงได้โดยไม่ต้องพึ่งพาหน่วยความจำความเร็วสูงเป็นเงื่อนไข:
กฎเชิงประจักษ์ของอุตสาหกรรมคือ แม้แบนด์วิดท์ของ DDR จะเพิ่มขึ้นเป็นสองเท่าโดยตรง แต่การยกระดับประสิทธิภาพโดยรวมของ CPU มักไม่เกินราว 20%
โครงสร้างเช่นนี้เองที่กำหนดจังหวะการเติบโตของอุตสาหกรรม DRAM ในช่วงหลายสิบปีที่ผ่านมา จาก DDR3 สู่ DDR5 ใช้เวลากว่า 15 ปี ในช่วง 10 ปีที่ผ่านมา ความจุ DDR ของพีซีทั่วไปเพิ่มจาก 7 ถึง 8 GB ไปสู่ราว 23 GB โดยใน 10 ปีนั้นโตได้เพียง 3 เท่า ผู้ผลิต DRAM มีแหล่งกำไรหลักจาก “ขนาดความจุ” ขณะที่การอัปเกรดแบนด์วิดท์เป็นเพียงวิธีดันราคาต่อหน่วยให้สูงขึ้น
ในยุค CPU หน่วยความจำคือองค์ประกอบที่มีประโยชน์เชิงขอบเขต (marginal utility) ต่ำที่สุดในห่วงโซ่ชิป และความผันผวนแบบเป็นวัฏจักรก็เป็นทั้งเรื่องปกติและเป็นชะตากรรม
เมื่อเข้าสู่ยุค AI Inference: เขียนนิยามมูลค่าของหน่วยความจำใหม่ตั้งแต่ราก
อย่างไรก็ตาม เมื่อบทบาทของเครื่องยนต์คำนวณเปลี่ยนไปเป็น AI inference เกณฑ์การวัดก็เปลี่ยนตาม ผู้ผลิตชิปจะวัดกันว่าในแต่ละวินาทีทำ floating-point ได้กี่ครั้ง ปัจจุบัน ในยุค AI KPI แกนหลักเหลือเพียงอย่างเดียว: ต่อ 1 ต้นทุน และต่อ 1 หน่วยกำลังไฟฟ้า สามารถสร้าง token ได้เท่าไร
แนวคิด “AI factory” ที่ เจนเซน หวง (Jen-Hsun Huang) ซีอีโอของ NVIDIA เสนอขึ้น ได้อธิบายตรรกะใหม่นี้ได้อย่างแม่นยำ: ความหมายของ AI factory คือการผลิต token ให้ได้มากที่สุดด้วยต้นทุนต่ำที่สุด พร้อมดันความเร็วของเอาต์พุต token ไปให้ถึงขีดสุด เป้าหมายการปรับแต่งไม่ได้อยู่มิติเดียวอีกต่อไป แต่ต้องขยายออกไปนอกเหนือจากนั้น คือทั้งเพิ่มให้สูงสุดทั้ง throughput รวมของ token และยังต้องเร่ง “ความเร็วการส่งออก token ต่อคำขอ” ให้มากที่สุดเท่าที่ทำได้
การเปลี่ยน KPI นี้เองคือจุดเริ่มต้นของการพลิกชะตากรรมของ HBM
สูตร throughput ของ Token: เปิดหลักการพื้นฐานอันดับแรกของดีมานด์ HBM
fin แยก throughput ของ token ใน AI inference ออกเป็นผลคูณของพารามิเตอร์ 2 ตัว: “จำนวนแบตช์ของคำขอที่ประมวลผลพร้อมกัน × อัตราการสร้าง token เฉลี่ยต่อคำขอ” จากนั้นจึงไล่ตามข้อจำกัดของแต่ละพารามิเตอร์ คำตอบกลับชี้ไปที่ “ชิ้นส่วน” ชิ้นเดียวกันเสมอ
ข้อจำกัดของจำนวนแบตช์ อยู่ที่ “ความจุในการเก็บ” ของ HBM ทุกคำขอ inference จะมาพร้อมกับ KV cache นั่นคือกลไกสำหรับเก็บสถานะระหว่างการอนุมานของโมเดล และแคชนี้ต้องถูกจัดเก็บไว้ใน HBM แบบทันที เพื่อให้โมเดลสามารถอ่านซ้ำได้ด้วยความเร็วสูงทุกครั้งที่สร้าง token ยิ่งขนาดแบตช์ใหญ่ขึ้น พื้นที่จัดเก็บที่ HBM ต้องใช้ก็ยิ่งมากขึ้น ความสัมพันธ์นี้เป็นสัดส่วนเชิงเส้น
ข้อจำกัดของความเร็ว token อยู่ที่ “แบนด์วิดท์” ของ HBM ในขั้นตอน decode ของโมเดล ทุกครั้งที่สร้าง token หนึ่งตัว ต้องมีการอ่านซ้ำทั้งน้ำหนักเริ่มต้น (startup weights) จำนวนมหาศาลและ KV cache ความเร็วในการอ่านเป็นตัวกำหนดประสิทธิภาพการสร้าง token โดยตรง และเพดานความเร็วในการอ่าน ก็คือแบนด์วิดท์ของ HBM
เขายกความสัมพันธ์นี้มาเปรียบเทียบด้วยรถรับส่งสนามบิน: ความจุของ HBM คือขนาดห้องโดยสารของรถ ซึ่งกำหนดว่าสามารถบรรทุกผู้โดยสารได้กี่คน แบนด์วิดท์ของ HBM คือความกว้างของประตูรถ ซึ่งกำหนดความเร็วในการขึ้น-ลงของผู้โดยสาร และ throughput รวมของการส่งผู้โดยสาร คือผลคูณของขนาดห้องโดยสารคูณกับความเร็วที่รถวิ่งรับส่ง ผู้เขียนสรุปเป็น “กฎข้อแรก” ของความต้องการฮาร์ดแวร์สำหรับ AI inference:
Token throughput = ความจุ HBM × แบนด์วิดท์ HBM
หากต้องการให้แต่ละรุ่นของ GPU คง throughput ของ token ให้โตเป็นสองเท่าตามรุ่นต่อรุ่น ผลคูณของความจุ HBM กับแบนด์วิดท์ HBM จะต้องเพิ่มเป็นสองเท่าทุกเจเนอเรชัน
การเพิ่มประสิทธิภาพซอฟต์แวร์แก้โจทย์นี้ไม่ได้: ดีมานด์ HBM ถูกล็อกไว้บนเส้นทางแบบเอ็กซ์โปเนนเชียล
เมื่อเผชิญกับการอนุมานนี้ การคัดค้านที่พบได้บ่อยในตลาดคือ: ซอฟต์แวร์จะลดการพึ่งพา HBM ได้ไหม เขาตอบว่า ประสิทธิภาพของซอฟต์แวร์กับความก้าวหน้าของสเปกฮาร์ดแวร์เป็นคนละมิติที่แยกขาดจากกัน และทั้งสองไม่สามารถทดแทนกันได้ นี่เหมือนกับว่าถึงแม้จะปรับซอฟต์แวร์ของ CPU ให้ “ละเอียด” แค่ไหน ก็ยังไม่สามารถหยุดไม่ให้ Intel หรือ AMD ต้องทำคะแนน benchmark มาตรฐานให้สูงขึ้นในทุกเจเนอเรชันได้ มิฉะนั้นสินค้าออกขายไม่ได้
ตรรกะของ GPU ก็เหมือนกันโดยสิ้นเชิง: ตราบใดที่ทั่วโลกยังคงขยายดีมานด์ต่อ token อย่างต่อเนื่อง ความต้องการสำหรับ throughput ของ token ที่สูงขึ้นก็จะไม่หยุด และความต้องการความก้าวหน้าใน HBM ทั้งสองด้านก็จะไม่หยุดเช่นกัน
ที่สำคัญกว่านั้น ความกดดันนี้ไม่ได้มาจากแรงดึงจากวัฏจักรเศรษฐกิจภายนอก แต่เป็นดีมานด์เชิงสร้างขึ้นเองจากฝั่งซัพพลาย หาก NVIDIA ยังต้องขาย GPU รุ่นถัดไป ก็ย่อมต้องไปกดดัน SK hynix, Samsung และ Micron ให้เร่งพัฒนากระโดดขึ้นทั้ง “ความจุ” และ “แบนด์วิดท์” ของ HBM ในแต่ละรุ่น เพราะเพดานของ HBM คือเพดานของประสิทธิภาพ GPU
เมื่อเอา throughput ของ token ของ GPU แต่ละเจเนอเรชันจาก A100 ไปจนถึง Rubin Ultra ของ NVIDIA และค่าที่สอดคล้องกันของ “ความจุ HBM × แบนด์วิดท์ HBM” ไปพล็อตในกราฟพิกัดเดียวกัน ทั้งสองเส้นโค้งจะตรงกันอย่างน่าประหลาดใจ นี่ไม่ใช่เรื่องบังเอิญในเชิงประวัติศาสตร์ แต่เป็นผลลัพธ์ที่หลีกเลี่ยงไม่ได้ของการเพิ่มประสิทธิภาพแบบระบบ
HBM ลากพ้นชะตากรรมแบบเป็นวัฏจักร แต่ตรรกะการตั้งราคาตลาดยังต้องประเมินใหม่
จากการอนุมานในระดับสถาปัตยกรรมข้างต้น ความแตกต่างเชิงแก่นของ HBM กับ DRAM แบบดั้งเดิมชัดเจนแล้ว หน่วยความจำแบบดั้งเดิมคือของเสริมในอุตสาหกรรมชิป ดีมานด์ขับเคลื่อนมีจำกัด เมื่อจังหวะการขยายกำลังการผลิตแซงหน้าการฟื้นตัวของดีมานด์ การ “พังราคาตามวัฏจักร” ก็จะมาถึงตามกำหนด
แต่ดีมานด์ของ HBM ถูกล็อกไว้บนเส้นทางการเติบโตแบบเอ็กซ์โปเนนเชียลโดยตรรกะเชิงฟิสิกส์ของสถาปัตยกรรม AI inference และไม่มีความสัมพันธ์เชิงเหตุ-ผลโดยตรงกับความร้อนแรง/ความเย็นของตลาด AI หรือกับวัฏจักรเศรษฐกิจโดยรวม
อย่างไรก็ตาม ปัญหาที่แท้จริงไม่ได้อยู่ที่ฝั่งดีมานด์ แต่เป็นฝั่งซัพพลาย: ผู้เล่นหลักอย่าง SK hynix, Samsung และ Micron 3 รายนี้ ในสถานการณ์ที่ดีมานด์ยังแข็งแกร่ง จะ “คุมสติ” จากแรงกระตุ้นการขยายกำลังแบบตาบอดที่เคยวนซ้ำมาหลายสิบปีได้หรือไม่ และหลีกเลี่ยงไม่ให้ฝังราก “เคราะห์ของการผลิตล้นความต้องการ” รอบใหม่ คำตอบของคำถามนี้คือปัจจัยสำคัญที่จะชี้ว่า วัฏจักรหน่วยความจำครั้งนี้จะสามารถยืดหยุ่นและดำรงอยู่ระยะยาวได้หรือไม่
(หุ้นหน่วยความจำร่วงหนักยังซื้อได้ไหม? นักวิเคราะห์ของ Samsung Securities: เป็นการปรับตัวระหว่างวัฏจักร ไม่ใช่สัญญาณว่าความร้อนของตลาดจบลง)
บทความนี้ตอกย้ำให้หักล้าง “ความเชื่อผิดๆ เรื่องวัฏจักร”! ใช้สูตรเดียวแกะโครงสร้างดีมานด์ของ HBM: ทำไมหน่วยความจำถึงจะยังคงปรับขึ้นต่อไป? เผยแพร่ครั้งแรกที่ 链新闻 ABMedia.
btc.bar.articles
K Wave Media ซึ่งเป็นบริษัทด้านการลงทุนของ Bitcoin ได้รับเงินสูงสุด $485M เพื่อสร้างโครงสร้างพื้นฐานสำหรับ AI
Morgan Stanley ปรับเพิ่มคาดการณ์กำไร S&P 500 ขึ้นเป็น 4% หลังผลประกอบการเทคโนโลยีแข็งแกร่ง
Gamestop เสนอ $56B เพื่อซื้อ eBay โดยใช้ $519M จากคลัง Bitcoin
Bitcoin กลับตัวจากระดับสูง $80,594 สู่ $79,000 หลังรายงานขีปนาวุธของอิหร่าน น้ำมันพุ่ง 5%
ผู้เชี่ยวชาญการเงินอธิบายว่าทำไมตลาดหุ้นกำลังจะพัง แล้วคริปโตกำลังจะพุ่งแทนได้ไหม?