NVIDIA GTC 2026｜Phân tích chiến lược mua lại 10 tỷ đô Groq của Nvidia, LPX như thế nào thay đổi quy trình suy luận

ChainNewsAbmedia

2026-03-18 18:34:01

Tại sự kiện GTC 2026 của NVIDIA, điều thu hút sự chú ý không chỉ là Vera Rubin NVL72 mà còn là mô hình suy luận hoàn toàn mới được hình thành khi kết hợp với Groq 3 LPX. Cơ sở hạ tầng AI đang chuyển từ mô hình tính toán dựa trên GPU đơn lẻ sang kiến trúc dị hướng dựa trên phân công nhiệm vụ.

Groq 3 LPX được định vị là bộ tăng tốc chuyên xử lý suy luận độ trễ thấp, bổ sung cho GPU Rubin để tạo thành mối quan hệ bổ trợ. Trong kiến trúc truyền thống, GPU phải đồng thời xử lý đầu vào ngữ cảnh dài và sinh token từng bước, nhưng khi quy mô mô hình và độ dài ngữ cảnh mở rộng nhanh chóng, thiết kế tích hợp này dần trở thành điểm nghẽn về hiệu suất.

NVIDIA do đó đã phân tách quy trình suy luận, để GPU Rubin tập trung vào xử lý trước với khả năng thông lượng cao và tính toán chú ý, còn LPX đảm nhận giai đoạn giải mã phản ứng nhanh nhất, đặc biệt là các phép tính mạng nơ-ron feedforward và MoE. Năm ngoái, NVIDIA đã mua Groq với số tiền khoảng 20 tỷ USD bằng tiền mặt, chính vì lý do này. Groq nổi bật với kiến trúc LPU (Language Processing Unit) được thiết kế đặc biệt cho suy luận AI, có độ trễ cực thấp, phản hồi ổn định và hiệu năng cao, phù hợp cho các ứng dụng đối thoại tức thì, trợ lý ảo.

(Ngân hàng mua lại lớn nhất trong lịch sử NVIDIA: chi 6400 tỷ để sở hữu công nghệ của Groq và cha đẻ của Google TPU)

GPU hợp tác với LPU để tách rời quá trình suy luận

Thiết kế gọi là “Disaggregated Inference” này khiến quá trình suy luận không còn do một bộ xử lý duy nhất thực hiện nữa, mà thông qua sự phối hợp giữa GPU và LPU để hoàn thành.

Trong quá trình vận hành thực tế, mô hình sẽ đầu tiên xây dựng ngữ cảnh và bộ đệm KV trên GPU, sau đó trong vòng lặp sinh token, GPU xử lý attention, rồi chuyển kết quả trung gian cho LPX thực hiện tính toán FFN, cuối cùng trả về GPU để tổng hợp kết quả. Phương thức phân công này cho phép các đơn vị tính toán khác nhau xử lý phần mà chúng làm tốt nhất, nâng cao đáng kể hiệu quả tổng thể.

NVIDIA mua lại Groq và ứng dụng LPU của họ vào LPX

Trọng tâm của LPX là kiến trúc LPU của nó. Khác với GPU dựa vào lập lịch động và bộ nhớ ngoài băng thông cao, LPU sử dụng thiết kế nhấn mạnh tính dự đoán, kiểm soát trực tiếp luồng tính toán và dữ liệu qua trình biên dịch, giảm thiểu dao động về độ trễ. Kiến trúc SRAM-first giúp dữ liệu quan trọng lưu giữ trong chip càng lâu càng tốt, giảm thiểu sự không chắc chắn do truy cập bộ nhớ, làm cho thời gian sinh token ổn định hơn. Tính năng này đặc biệt quan trọng đối với các ứng dụng AI tương tác tức thì, vì độ trễ ảnh hưởng trực tiếp đến trải nghiệm người dùng.

Thông số kỹ thuật của tủ LPX được công bố, gồm 256 LPU

Về quy mô phần cứng, một tủ LPX gồm 256 LPU, có băng thông bộ nhớ trong chip và khả năng giao tiếp giữa các chip cực cao, được thiết kế cho suy luận độ trễ thấp. Trong khi GPU Rubin có khả năng FLOPS cao và bộ nhớ dung lượng lớn, thì LPX giống như một động cơ tối ưu cho “làn đường cuối cùng”, chịu trách nhiệm chuyển đổi kết quả mô hình thành kết quả tức thì có thể sử dụng được.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận