DeepSeek V4 Pro 上 Ollama Cloud：Claude Code 一鍵串接

AI Agent AI Industry News AI Tools & Apps

2026-04-27 06:34:00

Laut dem offiziellen Ollama-Tweet vom 27. April ist das Flaggschiff-Modell DeepSeek V4 Pro, das von dem chinesischen KI-Unternehmen DeepSeek am 24. April veröffentlicht wurde, offiziell im Cloud-Modus im offiziellen Ollama-Katalog eingezogen. Nutzer können das Modell bereits mit nur einem einzigen Befehlszeilenbefehl aus gängigen Agent-Tools wie Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode usw. aufrufen. Das ist ein einmaliger Sync-Vorgang, mit dem Ollama die wichtigsten Large-Modelle am schnellsten integriert: Von der Veröffentlichung der Gewichte durch DeepSeek bis zum Start von Ollama Cloud vergingen lediglich drei Tage.

DeepSeek V4 Pro: 1,6T Parameter, 1M Kontext

V4 Pro nutzt eine Mixture-of-Experts-Architektur mit einer Gesamtparametergröße von 1,6 Billionen (49 Milliarden aktivierte Parameter) und einem Kontextfenster von 1M Tokens. Dritte Benchmarks von Artificial Analysis zeigen, dass V4 Pro in Programmierschreib-Benchmarks wie SWE-bench (80,6%), LiveCodeBench (93,5%), Terminal-Bench (67,9%) usw. mit dem Open-Source-Modell Kimi K2.6 in der Spitzengruppe gleichauf liegt; insgesamt liegt der Intelligence Index um eine Position hinter Kimi K2.6.

Gleichzeitig veröffentlichte DeepSeek auch das leichtere V4 Flash-Modell; beide werden unter der MIT-Lizenz als Open Source bereitgestellt und können von Hugging Face heruntergeladen werden.

Ollama Cloud: Cloud-Inferenz, Gewichte werden nicht lokal heruntergeladen

deepseek-v4-pro:cloud ist ein Ollama-Cloud-Modell: Die Inferenz erfolgt in der Ollama-Cloud, die Gewichte werden nicht auf den Rechner des Nutzers heruntergeladen. Das ist die Standardvorgehensweise von Ollama bei sehr großen Modellen; zuvor wurde auch Kimi K2.6 mit demselben Ansatz aufgenommen. Für Nutzer ist der größte Vorteil, dass sie das Flaggschiff-Modell nicht erst mit Dutzenden GPUs selbst bereithalten müssen; der Nachteil ist, dass weiterhin eine Internetverbindung erforderlich ist und die Rechenressourcen je nach Auslastung in der Ollama-Cloud verteilt werden.

Für eine vollständig lokale Ausführung müssen die Gewichte deepseek-ai/DeepSeek-V4-Pro von Hugging Face bezogen werden; erst mit einer INT4-Quantisierungsversion (z. B. den von Unsloth bereitgestellten GGUF) und einer Multi-GPU-Konfiguration ist es praktikabel. Übliche Consumer-Hardware reicht nicht aus, um das vollständige Modell zu tragen.

Einzeiliger Befehl zum Verbinden von Claude Code, Hermes Agent, OpenClaw

Ollama synchronisiert auch Veröffentlichungen für Integrations-Launcher-Befehle für gängige Agent-Tools:

直接對話 ollama run deepseek-v4-pro:cloud # verbindet Claude Code ollama launch claude --model deepseek-v4-pro:cloud # 串接 Hermes Agent ollama launch hermes --model deepseek-v4-pro:cloud # verbindet OpenClaw / OpenCode / Codex ollama launch openclaw --model deepseek-v4-pro:cloud ollama launch opencode --model deepseek-v4-pro:cloud ollama launch codex --model deepseek-v4-pro:cloud

Die Bedeutung: Entwickler mussten in der Vergangenheit, wenn sie in Claude Code von DeepSeek auf etwas anderes umsteigen wollten, dies über eine OpenAI-kompatible API selbst zusammenbauen und dabei Endpoints sowie Authentifizierung handhaben; jetzt kann das über einen einzigen Ollama-Befehl erledigt werden. Für Nutzer, die Claude Code stark verwenden, bietet das einen schnellen Pfad, um ein Anthropic-Modell durch DeepSeek (oder analog auch Kimi) zu ersetzen, um die Kosten zu senken.

Reaktionen von frühen Testern: Geschwindigkeit von 30 tok/s bis Peak 1,1 tok/s

In den Community-Diskussionen unter dem Tweet zeigt sich, dass die Geschwindigkeit der Cloud-Inferenz je nach Auslastung der Ollama-Cloud variiert. Mehrere frühe Tester berichteten, dass in Spitzenzeiten die Geschwindigkeit eher langsam sei: von der normalen 30 Tokens/s auf das Niveau von 1,1 Tokens/s. Nutzer @benvargas stellte direkt einen Screenshot online und beschwerte sich „Need More Compute“. Ollama gab in einer weiteren Antwort zu, dass das offizielle Team „auch mit diesem Modell spielt“, was darauf hindeutet, dass der Traffic sich noch in einer Erkundungsphase befindet und noch keine vollständige Kapazitätsplanung erfolgt ist.

Für Entwickler, die eine stabile Produktionslinien-Geschwindigkeit anstreben, lautet die aktuelle Empfehlung: Cloud-Modus für Prototypentests und Kostenschätzungen verwenden; für ein echtes Produkt müssen weiterhin eigene GPU-Inferenzanlagen aufgebaut oder eine kommerzielle API gewählt werden. Ollama hat auch ein vollständiges Tutorial ergänzt, das die Punkte V4 Pro sowie die Abwägung zwischen Cloud und lokal ausführlich erklärt.

Dieser Artikel DeepSeek V4 Pro auf Ollama Cloud: Claude Code per One-Click verbinden erschien zuerst bei Kettennachrichten ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.