Trong thời gian diễn ra hội nghị CES, kiến trúc Rubin hoàn toàn mới của NVIDIA đã trở thành tâm điểm thảo luận gần đây trên thị trường, ngoài kiến trúc MOE còn có một bước đột phá quan trọng khác, và điều gì đó được thiết kế riêng cho kỷ nguyên Agentic AI, v.v... Tôi đã xem xét kỹ hơn và thực sự cảm nhận được tinh thần "cách mạng tự thân" của ông lớn:
1)Trước đây, NVIDIA dựa vào lợi thế phần cứng GPU, tận dụng thời kỳ bùng nổ khi các ông lớn AI đều điên cuồng mua sắm sức mạnh tính toán để huấn luyện các mô hình lớn. Thời đó, logic rất đơn giản, ai có nhiều card đồ họa hơn thì có thể huấn luyện ra mô hình tốt nhất.
Nhưng hiện tại, chiến tranh AI đã chuyển từ chiến trường "sức mạnh tính toán" sang "suy luận", đặc biệt là sau khi kỷ nguyên Agentic đến, AI cần xử lý suy luận với tần suất cao, nhiều bước, ngữ cảnh siêu dài.
Lúc này, tham số mô hình thường lên tới hàng nghìn tỷ, lượng dữ liệu xử lý cực lớn, GPU dù nhanh đến đâu, nếu truyền dữ liệu trong bộ nhớ không đủ nhanh, GPU sẽ phải chạy rỗng, đó chính là "tường chắn bộ nhớ", nói cách khác, việc có nhiều card đồ họa không còn đủ để giải quyết vấn đề nữa, còn cần bộ nhớ dung lượng cao và băng thông lớn để hỗ trợ. Rubin chính là để giải quyết vấn đề này.
2)Vì vậy, HBM4 do Rubin ra mắt đầu tiên có thể hỗ trợ bộ nhớ băng thông cao thế hệ thứ tư, giúp đạt tới 22TB/s. Nhưng quan trọng hơn là nó phối hợp với công nghệ NVLink 6 (băng thông trong rack đạt 260TB/s), biến 72 card thành một "vi mạch khổng lồ" về mặt logic.
Điều này có ý nghĩa gì? Trước đây, khi bạn mua card đồ họa, đó là các thành phần riêng lẻ, dữ liệu truyền giữa các card giống như chuyển phát nhanh qua nhiều trung chuyển. Giờ đây, Rubin thông qua liên kết mật độ cực cao, khiến dữ liệu di chuyển giữa các GPU gần như không cảm nhận được khoảng cách vật lý, 72 "công nhân" không còn làm việc riêng lẻ nữa, mà chia sẻ một bộ não chung.
Tôi nghĩ đây mới chính là chiêu thức thực sự của Rubin: không chỉ đơn thuần nâng cao tham số phần cứng, mà là tái cấu trúc luồng dữ liệu của toàn hệ thống.
3)Nếu MOE (Kiến trúc mô hình chuyên gia lai) là một cú đòn giảm chiều của NVIDIA trước các đối thủ mới nổi như DeepSeek, khi họ tập trung "chất đống card" theo mô hình thương mại "bạo lực", thì Rubin rõ ràng là một phản công chiến lược của ông lớn, không còn so sánh ai tiết kiệm card hơn nữa, mà là tái cấu trúc chi phí sử dụng AI. Tất nhiên, chiêu thức này cũng đồng nghĩa với việc NVIDIA sẽ hoàn toàn nói lời chia tay với mô hình cũ dựa trên "chất đống card" bạo lực.
Ông lớn này tính toán một khoản khác, kỷ nguyên Agentic muốn thực sự đi vào từng ngành nghề, phải vượt qua rào cản chi phí Token, điều này là xu thế không thể tránh khỏi của NVIDIA.
Theo quan điểm của ông lớn này, thay vì chờ đợi các ông lớn như Google, Meta tự nghiên cứu chip để chiếm lĩnh thị trường, hoặc bị DeepSeek và các đối thủ dùng mô hình để phá vỡ cung ứng, thì tốt hơn là chủ động phá vỡ bế tắc.
4)Vấn đề đặt ra là, sau cuộc cách mạng tự thân, NVIDIA sẽ tự thích nghi như thế nào? Con đường rõ ràng, từ "bán card đồ họa" chuyển sang "bán hệ thống", từ phục vụ một số tập đoàn lớn trở thành phổ cập AI thực sự.
Trước đây, khi bạn mua H100, NVIDIA luôn kiếm tiền từ phần card đồ họa đó, còn tương lai, Rubin sẽ nói với bạn: bạn phải mua cả hệ thống NVL72 — 72 GPU, Switch NVLink, hệ thống làm mát chất lỏng toàn bộ, tủ rack, thậm chí cả phần mềm đi kèm, tất cả sẽ được bán theo gói.
Ông lớn này cũng rất rõ ràng, có vẻ như chi phí phần cứng sau khi đóng gói cao hơn, nhưng đi kèm với hiệu quả suy luận tối đa, giúp giảm chi phí đơn vị sử dụng AI của khách hàng, đồng thời cũng không mất thị phần.
Nhưng, nhưng, nhưng, cách chơi này cũng đặt ra rào cản cao hơn cho các nhà chơi nhỏ và trung, chỉ các tập đoàn lớn và nhà cung cấp dịch vụ đám mây mới có thể chơi được, điều này sẽ càng làm tăng tính độc quyền về sức mạnh tính toán. Trong bối cảnh cạnh tranh hiện tại, đây có thể xem là một cuộc cược lớn, vì nếu HBM4 gặp vấn đề trong sản xuất hàng loạt, sẽ bị các đối thủ như AMD, Google TPU tận dụng cơ hội tung ra các giải pháp thay thế, thì giấc mơ bán hệ thống của NVIDIA có thể không dễ dàng thực hiện như mong đợi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Trong thời gian diễn ra hội nghị CES, kiến trúc Rubin hoàn toàn mới của NVIDIA đã trở thành tâm điểm thảo luận gần đây trên thị trường, ngoài kiến trúc MOE còn có một bước đột phá quan trọng khác, và điều gì đó được thiết kế riêng cho kỷ nguyên Agentic AI, v.v... Tôi đã xem xét kỹ hơn và thực sự cảm nhận được tinh thần "cách mạng tự thân" của ông lớn:
1)Trước đây, NVIDIA dựa vào lợi thế phần cứng GPU, tận dụng thời kỳ bùng nổ khi các ông lớn AI đều điên cuồng mua sắm sức mạnh tính toán để huấn luyện các mô hình lớn. Thời đó, logic rất đơn giản, ai có nhiều card đồ họa hơn thì có thể huấn luyện ra mô hình tốt nhất.
Nhưng hiện tại, chiến tranh AI đã chuyển từ chiến trường "sức mạnh tính toán" sang "suy luận", đặc biệt là sau khi kỷ nguyên Agentic đến, AI cần xử lý suy luận với tần suất cao, nhiều bước, ngữ cảnh siêu dài.
Lúc này, tham số mô hình thường lên tới hàng nghìn tỷ, lượng dữ liệu xử lý cực lớn, GPU dù nhanh đến đâu, nếu truyền dữ liệu trong bộ nhớ không đủ nhanh, GPU sẽ phải chạy rỗng, đó chính là "tường chắn bộ nhớ", nói cách khác, việc có nhiều card đồ họa không còn đủ để giải quyết vấn đề nữa, còn cần bộ nhớ dung lượng cao và băng thông lớn để hỗ trợ. Rubin chính là để giải quyết vấn đề này.
2)Vì vậy, HBM4 do Rubin ra mắt đầu tiên có thể hỗ trợ bộ nhớ băng thông cao thế hệ thứ tư, giúp đạt tới 22TB/s. Nhưng quan trọng hơn là nó phối hợp với công nghệ NVLink 6 (băng thông trong rack đạt 260TB/s), biến 72 card thành một "vi mạch khổng lồ" về mặt logic.
Điều này có ý nghĩa gì? Trước đây, khi bạn mua card đồ họa, đó là các thành phần riêng lẻ, dữ liệu truyền giữa các card giống như chuyển phát nhanh qua nhiều trung chuyển. Giờ đây, Rubin thông qua liên kết mật độ cực cao, khiến dữ liệu di chuyển giữa các GPU gần như không cảm nhận được khoảng cách vật lý, 72 "công nhân" không còn làm việc riêng lẻ nữa, mà chia sẻ một bộ não chung.
Tôi nghĩ đây mới chính là chiêu thức thực sự của Rubin: không chỉ đơn thuần nâng cao tham số phần cứng, mà là tái cấu trúc luồng dữ liệu của toàn hệ thống.
3)Nếu MOE (Kiến trúc mô hình chuyên gia lai) là một cú đòn giảm chiều của NVIDIA trước các đối thủ mới nổi như DeepSeek, khi họ tập trung "chất đống card" theo mô hình thương mại "bạo lực", thì Rubin rõ ràng là một phản công chiến lược của ông lớn, không còn so sánh ai tiết kiệm card hơn nữa, mà là tái cấu trúc chi phí sử dụng AI. Tất nhiên, chiêu thức này cũng đồng nghĩa với việc NVIDIA sẽ hoàn toàn nói lời chia tay với mô hình cũ dựa trên "chất đống card" bạo lực.
Ông lớn này tính toán một khoản khác, kỷ nguyên Agentic muốn thực sự đi vào từng ngành nghề, phải vượt qua rào cản chi phí Token, điều này là xu thế không thể tránh khỏi của NVIDIA.
Theo quan điểm của ông lớn này, thay vì chờ đợi các ông lớn như Google, Meta tự nghiên cứu chip để chiếm lĩnh thị trường, hoặc bị DeepSeek và các đối thủ dùng mô hình để phá vỡ cung ứng, thì tốt hơn là chủ động phá vỡ bế tắc.
4)Vấn đề đặt ra là, sau cuộc cách mạng tự thân, NVIDIA sẽ tự thích nghi như thế nào? Con đường rõ ràng, từ "bán card đồ họa" chuyển sang "bán hệ thống", từ phục vụ một số tập đoàn lớn trở thành phổ cập AI thực sự.
Trước đây, khi bạn mua H100, NVIDIA luôn kiếm tiền từ phần card đồ họa đó, còn tương lai, Rubin sẽ nói với bạn: bạn phải mua cả hệ thống NVL72 — 72 GPU, Switch NVLink, hệ thống làm mát chất lỏng toàn bộ, tủ rack, thậm chí cả phần mềm đi kèm, tất cả sẽ được bán theo gói.
Ông lớn này cũng rất rõ ràng, có vẻ như chi phí phần cứng sau khi đóng gói cao hơn, nhưng đi kèm với hiệu quả suy luận tối đa, giúp giảm chi phí đơn vị sử dụng AI của khách hàng, đồng thời cũng không mất thị phần.
Nhưng, nhưng, nhưng, cách chơi này cũng đặt ra rào cản cao hơn cho các nhà chơi nhỏ và trung, chỉ các tập đoàn lớn và nhà cung cấp dịch vụ đám mây mới có thể chơi được, điều này sẽ càng làm tăng tính độc quyền về sức mạnh tính toán. Trong bối cảnh cạnh tranh hiện tại, đây có thể xem là một cuộc cược lớn, vì nếu HBM4 gặp vấn đề trong sản xuất hàng loạt, sẽ bị các đối thủ như AMD, Google TPU tận dụng cơ hội tung ra các giải pháp thay thế, thì giấc mơ bán hệ thống của NVIDIA có thể không dễ dàng thực hiện như mong đợi.