Ollama Cloud での DeepSeek V4 Pro：Claude Code をワンクリックで接続

ChainNewsAbmedia

2026-04-27 06:34:00

Ollama 官方 4 月 27 日のツイートによると、中国のAI企業DeepSeekが4月24日に発表したフラッグシップモデルDeepSeek V4 Proが、正式にクラウド方式でOllama公式のディレクトリに登場しました。ユーザーは1行の指示だけで、Claude Code、Hermes Agent、OpenClaw、Codex、OpenCodeなどの主要なagentツールからそのモデルを呼び出せます。これはOllamaが主要な大規模モデルを最速で統合するための今回の同期であり、DeepSeekの提供（重みの公開）からOllama Cloudの稼働開始まで、わずか3日しかかかっていません。

DeepSeek V4 Pro：1.6T パラメータ、1M context

V4 ProはMixture-of-Experts（Mixture-of-Experts）アーキテクチャを採用しており、総パラメータ規模は1.6兆（49億のアクティブパラメータ）で、コンテキストウィンドウは1M tokenです。第三者ベンチマークのArtificial Analysisによれば、V4 ProはSWE-bench（80.6%）、LiveCodeBench（93.5%）、Terminal-Bench（67.9%）などのプログラミング系ベンチマークでKimi K2.6と並んで、オープンソースの上位グループに位置し、全体のIntelligence IndexはKimi K2.6に1ランク後れを取っています。

同時期にDeepSeekもより軽量なV4 Flashモデルをリリースしており、両者はいずれもMITライセンスでオープンソースで、Hugging Faceから重みをダウンロードできます。

Ollama Cloud のクラウド推論、重みは本機にダウンロードしない

deepseek-v4-pro:cloud はOllama Cloudのモデルで、推論はOllamaのクラウド上で行われ、重みはユーザーの手元（本機）にダウンロードされません。これはOllamaが超大型モデルを扱うための標準的なやり方で、先のKimi K2.6も同様の方式で収録されました。ユーザーにとっての最大の利点は、フラッグシップ級モデルを呼び出すのに数十枚のGPUを自前で用意する必要がないことです。欠点は、やはりネットワーク接続が必要で、Ollamaクラウドの負荷分散に従って計算資源が割り当てられる点です。

完全にローカルで実行するには、Hugging Faceで deepseek-ai/DeepSeek-V4-Pro の重みを取得し、INT4量子化版（たとえばUnslothが出したGGUF）とマルチカードGPU構成を組み合わせる必要があります。一般的な消費者向けハードウェアでは、完全なモデルを搭載するのは不足です。

1行の指示でClaude Code、Hermes Agent、OpenClawを連結

Ollamaは、主要なagentツールへの統合launcherの指示も同時にリリースしています：

直接對話 ollama run deepseek-v4-pro:cloud # Claude Code を連結 ollama launch claude --model deepseek-v4-pro:cloud # 串接 Hermes Agent ollama launch hermes --model deepseek-v4-pro:cloud # OpenClaw / OpenCode / Codex を連結 ollama launch openclaw --model deepseek-v4-pro:cloud ollama launch opencode --model deepseek-v4-pro:cloud ollama launch codex --model deepseek-v4-pro:cloud

その意味は次のとおりです。開発者はこれまでClaude Code内でDeepSeekに切り替えたい場合、OpenAI互換APIを通して自分で連結し、endpointや認証を処理する必要がありました。いまは、Ollamaの1行の指示でそれが完了します。Claude Codeを重度に活用しているユーザーにとって、これはAnthropicモデルをDeepSeek（同様にKimi）に置き換えてコストを下げるための迅速なルートを提供します。

初期テスターの反応：速度が30 tok/sからピーク1.1 tok/sへ

ツイートの下のコミュニティの議論から分かるように、クラウド推論の速度はOllamaクラウドの負荷状況によって異なります。複数の初期テスターが、ピーク時間帯は速度が遅く、通常の30 tokens/sから1.1 tokens/s級まで落ちると報告しています。ユーザー@benvargasは、スクリーンショットを貼り付けて不満の「Need More Compute」をそのまま引用しました。Ollamaは別の返信で、公式チームも「このモデルを使って遊んでいる」と認めており、つまりトラフィックはまだ探索段階で、完全なキャパシティ計画がまだなされていないということを示しています。

安定した量産（プロダクション）速度を求める開発者向けの現時点の推奨は次のとおりです。現在はクラウド方式をプロトタイプのテストとコスト評価に用い、正式な製品では自前でGPU推論基盤を構築するか、商用APIを選ぶ必要があります。Ollamaの完全なチュートリアルは、V4 Proの項目とクラウド／ローカルの取捨選択の説明も同時に追記されました。

この記事 DeepSeek V4 Pro がOllama Cloudで：Claude Code 一鍵連結は最初に鏈新聞 ABMedia に掲載されました。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。