DeepSeek Ra Mắt Loạt Mô Hình Mã Nguồn Mở V4 Với 1,6T Tham Số Và Giấy Phép MIT

Tin cổng, ngày 24 tháng 4 — DeepSeek đã phát hành loạt mô hình mã nguồn mở V4 theo Giấy phép MIT, với trọng số hiện đã có trên Hugging Face và ModelScope. Loạt này bao gồm hai mô hình (MoE) dạng mixture-of-experts: V4-Pro với 1,6 nghìn tỷ tham số tổng và 49 tỷ tham số được kích hoạt mỗi token, và V4-Flash với 284 tỷ tham số tổng và 13 tỷ tham số được kích hoạt mỗi token. Cả hai đều hỗ trợ cửa sổ ngữ cảnh 1 triệu token.

Kiến trúc có ba nâng cấp chính: một cơ chế attention lai kết hợp attention thưa nén (CSA) và attention nén mạnh (HCA), giúp giảm đáng kể chi phí phát sinh cho ngữ cảnh dài—FLOPs suy luận của V4-Pro cho ngữ cảnh 1M chỉ bằng 27% của V3.2, và bộ nhớ đệm KV (VRAM) để lưu thông tin lịch sử trong quá trình suy luận( chỉ bằng 10% của V3.2; các siêu liên kết ràng buộc đa tạp )mHC( thay thế các kết nối residual truyền thống để tăng cường độ ổn định lan truyền tín hiệu giữa các lớp; và bộ tối ưu hóa Muon để hội tụ huấn luyện nhanh hơn. Tiền huấn luyện sử dụng hơn 32 nghìn tỷ token dữ liệu.

Hậu huấn luyện áp dụng phương pháp hai giai đoạn: đầu tiên huấn luyện các chuyên gia theo miền thông qua supervised fine-tuning )SFT( và học tăng cường GRPO, sau đó hợp nhất chúng thành một mô hình thông qua chưng cất trực tuyến. V4-Pro-Max )highest inference mode tuyên bố là mô hình mã nguồn mở mạnh nhất với các bộ đánh giá mã hóa hàng đầu và khoảng cách thu hẹp đáng kể so với các mô hình “biên” mã nguồn đóng về các tác vụ suy luận và tác nhân. V4-Flash-Max đạt hiệu năng suy luận tầm Pro với đủ ngân sách tính toán nhưng bị giới hạn bởi quy mô tham số đối với kiến thức thuần túy và các tác vụ tác nhân phức tạp. Trọng số được lưu ở độ chính xác kết hợp FP4+FP8.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Tòa án Trung Quốc ban hành án lệ mới nhất: Lý do hợp pháp để AI tự động hóa không sa thải nhân viên

Tòa án ở Hàng Châu ra phán quyết mới nhất cho biết việc doanh nghiệp sa thải, giáng chức hoặc cắt giảm lương mạnh với lý do áp dụng các công nghệ như AI là trái pháp luật; chỉ riêng tiến bộ công nghệ không đồng nghĩa với việc được phép cắt giảm nhân sự theo quy định. Trong vụ việc này, nhân viên bị giáng chức do tự động hóa và phải chịu mức giảm lương lên tới 40%; tòa án cuối cùng đã ủng hộ yêu cầu bồi thường của họ, cho thấy khi thúc đẩy tự động hóa cần tuân thủ quy định và đồng thời cung cấp chuyển đổi vị trí công việc cũng như đào tạo lại.

ChainNewsAbmedia15phút trước

Hoskinson thảo luận về vai trò của Midnight trong hệ sinh thái Cardano trên The Breakdown

Charles Hoskinson, nhà sáng lập Cardano và đồng sáng lập Ethereum, xuất hiện với vai trò khách mời trong tập 701 của podcast “The Breakdown” do David Gokhshtein dẫn dắt để thảo luận về dự án Midnight, những thách thức về trải nghiệm người dùng trong crypto và tầm nhìn của ông cho tương lai của blockchain. Trong cuộc phỏng vấn, Hoskinson

CryptoFrontier7giờ trước

Berkshire Energy Nhìn Thấy Cơ Hội Tăng Trưởng Từ Nhu Cầu Điện Được Thúc Đẩy Bởi AI

Theo Beating, tại cuộc họp cổ đông của Berkshire, CEO Abel cho biết nhu cầu điện được thúc đẩy bởi AI đang tạo ra cơ hội tăng trưởng mới cho mảng kinh doanh năng lượng của công ty, và hiện đã có một nửa hệ thống tiện ích năng lượng của Berkshire đang đáp ứng các yêu cầu điện liên quan đến AI. Tại Iowa, các trung tâm dữ liệu nay đang chiếm

GateNews10giờ trước

Lời khai tuần đầu vụ kiện Musk vs Altman: thừa nhận XAI “chưng cất” OpenAI, cảnh báo AI như kẻ hủy diệt

Trong tuần đầu làm chứng tại Tòa án Liên bang ở Oakland, Musk cáo buộc Altman và Brockman lừa đảo tiền tài trợ phi lợi nhuận giai đoạn đầu, cảnh báo về rủi ro ngày tận của AI, và thừa nhận rằng một phần xAI của ông được chắt lọc từ các mô hình của OpenAI; ông cho biết đã đầu tư 38 triệu USD và làm chứng rằng OpenAI đã chuyển từ phi lợi nhuận sang định giá 800 tỷ USD. Đầu tư của Microsoft năm 2022 được xem là bước ngoặt dẫn đến sự sụp đổ niềm tin. OpenAI lập luận rằng Musk tìm cách lôi kéo nhân sự và phản bác bằng động cơ vì mục đích cạnh tranh. Ở tuần tiếp theo, các nhân chứng gồm Russell và Brockman.

ChainNewsAbmedia11giờ trước

AI tài chính liên kết với Trump mua Block Street với giá 43 triệu USD

Theo Fortune, AI Financial, một công ty tiền mã hoá có liên kết với gia đình Trump và trước đây từng có tên Alt5 Sigma, đã mua lại Block Street, một công ty hạ tầng crypto, với giá 43 triệu USD vào tuần trước. Matthew Morgan, cố vấn của AI Financial và đồng thời là CEO của Block Street, cho biết thương vụ mua lại này không phải là

GateNews12giờ trước

Cổ phiếu của Riot Tăng 8% Sau Khi Mở Rộng Thỏa Thuận Trung Tâm Dữ Liệu với AMD

Cổ phiếu của công ty khai thác Bitcoin Riot đã tăng 8% sau khi mở rộng thỏa thuận trung tâm dữ liệu với AMD. Quan hệ đối tác mở rộng bao gồm các điều khoản tài trợ được cải thiện, nhấn mạnh sự chuyển hướng chiến lược của Riot từ khai thác bitcoin sang vận hành các trung tâm dữ liệu cho trí tuệ nhân tạo. Động thái này cho thấy mức độ tin cậy ngày càng tăng

GateNews15giờ trước
Bình luận
0/400
Không có bình luận