Các chip của nó trong các kịch bản mô hình nhỏ có thể đạt tốc độ suy luận cao nhất gấp 20 lần H100; còn đối với các mô hình quy mô siêu lớn (như 400 tỷ tham số), tốc độ phản hồi của hệ thống Cerebras CS-3 của một người dùng khoảng 2,4 lần B200.
Vậy thì Cerebras thực sự đã làm thế nào được điều đó? Liệu nó có trở thành kẻ giết chết Nvidia không?
Chúng ta cần bắt đầu từ bản chất của sự tiến hóa về sức mạnh tính toán.
Tiến trình của sức mạnh tính toán AI đang chuyển từ “sức mạnh tính toán bản thân” sang “giao tiếp và cấu trúc hệ thống”. Trên con đường tiến hóa này, Cerebras Systems cung cấp một câu trả lời hoàn toàn khác biệt: không tối ưu hóa phân phối, mà là tiêu diệt phân phối càng nhiều càng tốt.
Một, hai con đường: tiêu diệt giao tiếp vs tối ưu hóa giao tiếp
Hiện tại, bản chất của sức mạnh tính toán AI chia thành hai triết lý kiến trúc: Một là con đường đại diện bởi NVIDIA:
đa chip (GPU), liên kết tốc độ cao (NVLink / CPO), mở rộng theo chiều ngang (scale-out)
Con đường còn lại là của Cerebras: đạt giới hạn trên của một chip duy nhất (wafer-scale)
Mạng nội bộ thay thế giao tiếp giữa các nút, mở rộng theo chiều dọc (scale-up)
Điểm khác biệt chính là: Một giải quyết “làm thế nào để kết nối nhiều chip hơn”, còn một giải quyết “làm thế nào để không cần kết nối”.
Hai, tại sao con đường này mới được thành lập bây giờ
Wafer-scale không phải là khái niệm mới, đã có người thử từ thập niên 80, nhưng thất bại trong thương mại vào thập niên 90. Nguyên nhân là:
Tỷ lệ thành công không đủ cao
Không có cơ chế chịu lỗi
Phần mềm không thể hỗ trợ
Ngành công nghiệp vì vậy đã hình thành một nhận thức chung: die nhỏ + tỷ lệ thành công cao + phân phối.
Bước đột phá của Cerebras nằm ở việc ba yếu tố này cùng lúc thành công:
1) Cơ chế chịu lỗi được kỹ thuật hóa
2) Mạng nội bộ trên chip trưởng thành
3) Phù hợp với workload AI (độ song song cao, đồng bộ mạnh, giao tiếp chiếm ưu thế)
Bản chất thay đổi là: từ “phần cứng hoàn hảo” chuyển sang “hệ thống có thể chịu lỗi”.
Ba, so sánh hiệu năng: giới hạn điểm đơn lẻ vs mở rộng hệ thống
Về mặt giao tiếp, hai con đường rõ ràng về ưu nhược điểm:
1) Giao tiếp nội bộ chip
Cerebras: hoàn toàn nội bộ chip → độ trễ thấp nhất, tiêu thụ năng lượng thấp nhất
CPO: vẫn có chuyển đổi quang điện
→ Hiệu quả điểm đơn: Cerebras tốt hơn
2) Mở rộng hệ thống
Cerebras: một khi vượt qua chip → trở lại vấn đề giao tiếp
CPO: băng thông có thể mở rộng liên tục
→ Năng lực hệ thống: CPO tốt hơn
3) Cấu trúc tiêu thụ năng lượng
Cerebras: tiêu thụ năng lượng cực cao cho một máy, nhưng giao tiếp cực kỳ tiết kiệm
GPU+CPO: tiêu thụ năng lượng điểm đơn kiểm soát được, hiệu quả hệ thống cân đối hơn
Kết luận rõ ràng:
Cerebras thắng “giới hạn điểm đơn”,
CPO thắng “quy mô hệ thống”.
Bốn, các kịch bản phù hợp: ai nên dùng Cerebras
Tiêu chí đánh giá có thể rút gọn thành ba câu hỏi:
1) Giao tiếp có phải là nút thắt cổ chai không?
2) Nhiệm vụ có thể tập trung không?
3) Cấu trúc có quy luật không?
Vì vậy, phù hợp cao với huấn luyện mô hình lớn (mô hình dense), ngữ cảnh dài, và một số HPC (PDE, chất lỏng, v.v.)
Những nhiệm vụ này có đặc điểm chung là: liên kết mạnh + đồng bộ cao + băng thông cao.
Một phần phù hợp với suy luận mô hình lớn (ít song song), tính toán đồ thị (khi cấu trúc phức tạp thì lợi thế giảm).
Không phù hợp với CPU (tính toán chung), suy luận đa nhiệm cao, chip di động/biên, hệ thống thời gian thực.
Các hệ thống này có đặc điểm chung là: không quy luật / đa nhiệm cao / độ trễ thấp.
Năm, liệu nó có trở thành xu hướng chủ đạo không?
Dù Cerebras rất mạnh trong các kịch bản cụ thể, nhưng không phải con đường chính thống, nguyên nhân là:
1) Hạn chế vật lý: mật độ công suất tiêu thụ; độ trễ tín hiệu → giải pháp chịu lỗi không thể giải quyết các vấn đề này
2) Kinh tế: die nhỏ có tỷ lệ thành công cao hơn; chiplet linh hoạt hơn
3) Đường hướng ngành: TSMC và các hệ thống tối ưu hóa theo hướng module hóa, đa khách hàng sử dụng lại chứ không phải siêu lớn đơn thể
4) Thay đổi về phía nhu cầu: suy luận chiếm tỷ lệ cao hơn huấn luyện, đa nhiệm, song song cao trở thành xu hướng chủ đạo
Sáu, ý nghĩa của Cerebras
Thay vì nói kích thước wafer-scale là xu hướng quan trọng, có thể nói thiết kế chịu lỗi là triết lý sẽ được phổ biến rộng rãi hơn.
Trong tương lai, có thể xuất hiện chiplet cấp độ chịu lỗi, đóng gói cấp độ vòng lặp.
Thay đổi cốt lõi là phần cứng không còn cần phải hoàn hảo nữa, hệ thống sẽ đảm nhận phần còn lại.
Quay lại câu hỏi ban đầu: Liệu Cerebras có trở thành “kẻ giết chết” Nvidia không?
Câu trả lời thực ra đã rất rõ ràng.
Nó thực sự chạm vào điểm yếu của hệ sinh thái GPU — giao tiếp. Nhưng ngành công nghiệp không chọn con đường này hoặc con đường kia, mà là đồng thời áp dụng nhiều đột phá công nghệ: liên kết mạnh hơn, tiêu thụ năng lượng giao tiếp thấp hơn, hiệu quả hệ thống cao hơn.
Vì vậy, đánh giá chính xác hơn là Cerebras không phải là kẻ giết Nvidia, mà là thực hành tốt nhất mà Nvidia và tất cả các công ty chip có thể học hỏi.
Tuyên bố từ chối trách nhiệm: Tôi sở hữu các mã chứng khoán đề cập trong bài, quan điểm chắc chắn có phần thiên vị, không phải lời khuyên đầu tư, rủi ro đầu tư rất lớn, cần thận trọng khi tham gia.
(Hình: một chip Cerebras)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
269.48K Phổ biến
#
比特币Breaks79K
13.17K Phổ biến
#
IsraelStrikesIranBTCPlunges
34.05K Phổ biến
#
CryptoMarketsRiseBroadly
81.64K Phổ biến
#
WHCADinnerShootingIncident
11.47K Phổ biến

Ghim

sơ đồ trang web

Gần đây, cơn sốt mới của các chip AI mới ra mắt IPO, Cerebras, đã lan rộng khắp Silicon Valley.

Chủ đề thịnh hành

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Ghim