Theo tweet chính thức của Ollama ngày 27 tháng 4, mô hình flagship DeepSeek V4 Pro do công ty AI của Trung Quốc DeepSeek phát hành ngày 24 tháng 4 đã chính thức gia nhập mục lục chính thức của Ollama theo chế độ đám mây. Người dùng chỉ cần một lệnh là có thể gọi mô hình này thông qua các công cụ agent phổ biến như Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode. Đây là một lần đồng bộ nhanh nhất để Ollama tích hợp các mô hình lớn phổ biến—từ khi DeepSeek công bố trọng số đến khi Ollama Cloud ra mắt, chỉ cách nhau ba ngày.
DeepSeek V4 Pro:1.6T tham số、1M context
V4 Pro sử dụng kiến trúc Mixture-of-Experts, quy mô tổng tham số 1,6 nghìn tỷ (49 ức tham số hoạt động), cửa sổ ngữ cảnh 1M token. Các benchmark bên thứ ba Artificial Analysis cho thấy, V4 Pro ở các bài benchmark viết chương trình như SWE-bench(80.6%)、LiveCodeBench(93.5%)、Terminal-Bench(67.9%)đứng song song với mô hình mã nguồn mở top đầu Kimi K2.6; chỉ số Intelligence Index tổng thể kém Kimi K2.6 đúng một bước.
Cùng thời điểm, DeepSeek cũng phát hành mô hình nhẹ hơn V4 Flash; cả hai đều áp dụng giấy phép MIT mã nguồn mở, có thể tải trọng số từ Hugging Face.
Ollama Cloud suy luận trên đám mây, không tải trọng số về máy
deepseek-v4-pro:cloud là mô hình của Ollama Cloud—việc suy luận được thực hiện trên đám mây của Ollama, trọng số không được tải xuống máy của người dùng. Đây là cách tiêu chuẩn mà Ollama xử lý các mô hình siêu lớn; trước đó Kimi K2.6 cũng được tích hợp theo cách tương tự. Đối với người dùng, lợi thế lớn nhất là không cần tự trang bị hàng chục GPU để gọi mô hình flagship; nhược điểm là vẫn cần kết nối mạng và dựa vào việc phân bổ tài nguyên tính toán theo tải của Ollama Cloud.
Nếu muốn chạy hoàn toàn cục bộ, cần lấy trọng số deepseek-ai/DeepSeek-V4-Pro từ Hugging Face, kết hợp với phiên bản lượng tử hóa INT4 (như GGUF do Unsloth phát hành) và cấu hình GPU nhiều thẻ thì mới có tính khả thi. Phần cứng tiêu dùng phổ thông không đủ khả năng để gánh toàn bộ mô hình.
Một lệnh kết nối Claude Code, Hermes Agent, OpenClaw
Ollama đồng bộ phát hành lệnh launcher tích hợp cho các công cụ agent phổ biến:
Ý nghĩa là: trước đây, nếu nhà phát triển muốn đổi sang DeepSeek trong Claude Code, cần tự nối thông qua API tương thích với OpenAI, tự xử lý endpoint và xác thực; hiện nay, thông qua Ollama, chỉ cần một lệnh là hoàn tất. Đối với người dùng dùng Claude Code chuyên sâu, đây là một lối đi nhanh để thay thế mô hình Anthropic bằng DeepSeek (hoặc tương tự có thể thay bằng Kimi) nhằm giảm chi phí.
Phản hồi của người thử nghiệm sớm: tốc độ từ 30 tok/s đến đỉnh điểm 1.1 tok/s
Các thảo luận cộng đồng bên dưới tweet cho thấy tốc độ suy luận trên đám mây phụ thuộc vào tải của Ollama Cloud. Nhiều người thử nghiệm sớm phản ánh vào các khung giờ cao điểm tốc độ chậm hơn, giảm từ mức thường thấy 30 tokens/s xuống khoảng 1.1 tokens/s; người dùng @benvargas đã trực tiếp đăng ảnh chụp để than phiền “Need More Compute”. Trong một phản hồi khác, Ollama thừa nhận nhóm chính thức “cũng đang dùng mô hình này”, ý nói lưu lượng vẫn đang ở giai đoạn thăm dò, chưa có kế hoạch năng lực hoàn chỉnh.
Đối với các nhà phát triển theo đuổi tốc độ ổn định cho dây chuyền sản xuất, khuyến nghị hiện tại là: dùng chế độ đám mây làm nguyên mẫu thử nghiệm và đánh giá chi phí; còn sản phẩm chính thức vẫn cần tự xây dựng cơ sở hạ tầng suy luận GPU hoặc chọn API thương mại. Hướng dẫn đầy đủ của Ollama cũng đã được bổ sung kèm mục V4 Pro và phần giải thích các lựa chọn giữa đám mây / cục bộ.
Bài viết này DeepSeek V4 Pro trên Ollama Cloud:Claude Code kết nối bằng một nút lần đầu xuất hiện ở 鏈新聞 ABMedia.
Related News
郭明錤: OpenAI muốn làm AI Agent trên điện thoại, MediaTek, Qualcomm, Luxshare Precision trở thành chuỗi cung ứng then chốt
Tencent Cloud QClaw tích hợp vào khung Hermes, hỗ trợ chuyển đổi nhiều mô hình như DeepSeek-V4 Pro
xAI Grok Voice tiếp quản đường dây nóng chăm sóc khách hàng của Starlink, 70% cuộc gọi được tự động kết án
DeepRoute.ai Hệ thống hỗ trợ lái nâng cao đột phá 300.000 xe triển khai: Mục tiêu 2026 là đội xe NOA 1 triệu xe trong các thành phố
DeepSeek V4-Flash lên Ollama Cloud, máy chủ Mỹ: Claude Code, OpenClaw tích hợp một lần