
DeepSeek đã chính thức ra mắt chuỗi phiên bản xem trước V4 vào ngày 24 tháng 4, phát hành mã nguồn mở theo giấy phép MIT, và trọng số mô hình đã được đồng bộ lên Hugging Face cùng ModelScope. Theo báo cáo kỹ thuật của DeepSeek V4, V4-Pro-Max (chế độ mức độ suy luận tối đa) đạt 3206 điểm trên chuẩn Codeforces, vượt GPT-5.4.
Theo báo cáo kỹ thuật của DeepSeek V4, chuỗi V4 bao gồm hai mô hình lai (MoE):
V4-Pro: Tổng tham số 1.6T, kích hoạt 49B mỗi token, hỗ trợ ngữ cảnh 1M token
V4-Flash: Tổng tham số 284B, kích hoạt 13B mỗi token, cũng hỗ trợ ngữ cảnh 1M token
Theo báo cáo kỹ thuật, ở ngữ cảnh 1M, FLOPs suy luận cho mỗi token của V4-Pro chỉ bằng 27% của V3.2; bộ nhớ đệm KV giảm xuống còn 10% của V3.2. Điều này chủ yếu nhờ nâng cấp kiến trúc của cơ chế chú ý hỗn hợp (CSА chú ý thưa nén + HCA chú ý nén nặng). Quy mô dữ liệu tiền huấn luyện vượt quá 32T token; trình tối ưu hóa huấn luyện được cập nhật thành Muon.
Theo báo cáo kỹ thuật của DeepSeek V4, cập nhật cốt lõi của hậu huấn luyện V4 là thay thế hoàn toàn giai đoạn học tăng cường hỗn hợp (mixed RL) của V3.2 bằng chưng cất chiến lược trực tuyến (On-Policy Distillation, OPD). Quy trình mới được chia thành hai bước: trước hết, huấn luyện riêng các chuyên gia theo từng lĩnh vực (SFT + học tăng cường GRPO) cho các lĩnh vực như toán học, mã lệnh, Agent và tuân theo lệnh; sau đó, dùng nhiều giáo viên OPD để chưng cất năng lực của hàng chục chuyên gia vào một mô hình thống nhất, căn chỉnh bằng logit để tránh các xung đột năng lực thường gặp trong các phương pháp truyền thống.
Báo cáo đồng thời đưa vào mô hình phần thưởng sinh (Generative Reward Model, GRM), nhằm vào các tác vụ khó xác minh bằng quy tắc. Dùng dữ liệu nhãn thủ công đa dạng với số lượng ít để huấn luyện, để mô hình đồng thời đảm nhiệm chức năng sinh và đánh giá.
Theo báo cáo kỹ thuật của DeepSeek V4, kết quả so sánh giữa V4-Pro-Max và Opus 4.6 Max, GPT-5.4 xHigh cùng Gemini 3.1 Pro High (không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây):
Codeforces: 3206 (GPT-5.4: 3168 / Gemini 3.1 Pro: 3052) → Cao nhất toàn trường
LiveCodeBench: 93.5 → Cao nhất toàn trường
SWE Verified: 80.6, thua Opus 4.6 80.8 chênh 0.2 điểm phần trăm
GPQA Diamond: 90.1, thua Gemini 3.1 Pro 94.3
SimpleQA-Verified: 57.9, thua Gemini 3.1 Pro 75.6
HLE: 37.7, thua Gemini 3.1 Pro 44.4
Báo cáo kỹ thuật cũng chỉ ra rằng các so sánh trên không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây; khoảng cách giữa V4 và các mô hình đóng nguồn thế hệ mới nhất cần được thẩm định bằng đánh giá của bên thứ ba.
Theo thông báo chính thức của DeepSeek ngày 24 tháng 4, chuỗi V4 phát hành mã nguồn mở theo giấy phép MIT, trọng số mô hình đã được đưa lên Hugging Face và ModelScope, áp dụng cho cả mục đích thương mại lẫn học thuật.
Theo báo cáo kỹ thuật của DeepSeek V4, tổng tham số của V4-Pro là 1.6T, kích hoạt 49B mỗi token; tổng tham số của V4-Flash là 284B, kích hoạt 13B mỗi token. Cả hai đều hỗ trợ ngữ cảnh 1M token.
Theo báo cáo kỹ thuật của DeepSeek V4, V4-Pro-Max vượt GPT-5.4 và Gemini 3.1 Pro ở hai chuẩn Codeforces (3206 điểm) và LiveCodeBench (93.5), nhưng vẫn thua Gemini 3.1 Pro ở các chuẩn thiên về tri thức (GPQA Diamond, SimpleQA-Verified, HLE); bộ so sánh không bao gồm GPT-5.5 và Opus 4.7.
Related News
Tencent phát hành mã nguồn mở Hy3 phiên bản xem trước, bộ chuẩn kiểm thử hiệu năng mã nguồn tăng 40% so với phiên bản trước
OpenAI 推 GPT-5.5: 12M ngữ cảnh, chỉ số AA vươn lên dẫn đầu, Terminal-Bench 82,7% viết lại chuẩn mực cho đại lý
Google Jules công bố danh sách ứng viên phiên bản mở mới, định vị lại thành nền tảng phát triển sản phẩm đầu đến đầu
Mở OpenAI ChatGPT Workspace Agents: Được điều khiển bởi Codex, chia sẻ trong nhóm, tích hợp Slack
DeepSeek đang đàm phán vòng tài trợ bên ngoài đầu tiên, định giá 200 tỷ USD: mức định giá AI cao kỷ lục mới của Trung Quốc