Laut dem offiziellen Ollama-Tweet vom 27. April ist das Flaggschiff-Modell DeepSeek V4 Pro, das von dem chinesischen KI-Unternehmen DeepSeek am 24. April veröffentlicht wurde, offiziell im Cloud-Modus im offiziellen Ollama-Katalog eingezogen. Nutzer können das Modell bereits mit nur einem einzigen Befehlszeilenbefehl aus gängigen Agent-Tools wie Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode usw. aufrufen. Das ist ein einmaliger Sync-Vorgang, mit dem Ollama die wichtigsten Large-Modelle am schnellsten integriert: Von der Veröffentlichung der Gewichte durch DeepSeek bis zum Start von Ollama Cloud vergingen lediglich drei Tage.
DeepSeek V4 Pro: 1,6T Parameter, 1M Kontext
V4 Pro nutzt eine Mixture-of-Experts-Architektur mit einer Gesamtparametergröße von 1,6 Billionen (49 Milliarden aktivierte Parameter) und einem Kontextfenster von 1M Tokens. Dritte Benchmarks von Artificial Analysis zeigen, dass V4 Pro in Programmierschreib-Benchmarks wie SWE-bench (80,6%), LiveCodeBench (93,5%), Terminal-Bench (67,9%) usw. mit dem Open-Source-Modell Kimi K2.6 in der Spitzengruppe gleichauf liegt; insgesamt liegt der Intelligence Index um eine Position hinter Kimi K2.6.
Gleichzeitig veröffentlichte DeepSeek auch das leichtere V4 Flash-Modell; beide werden unter der MIT-Lizenz als Open Source bereitgestellt und können von Hugging Face heruntergeladen werden.
Ollama Cloud: Cloud-Inferenz, Gewichte werden nicht lokal heruntergeladen
deepseek-v4-pro:cloud ist ein Ollama-Cloud-Modell: Die Inferenz erfolgt in der Ollama-Cloud, die Gewichte werden nicht auf den Rechner des Nutzers heruntergeladen. Das ist die Standardvorgehensweise von Ollama bei sehr großen Modellen; zuvor wurde auch Kimi K2.6 mit demselben Ansatz aufgenommen. Für Nutzer ist der größte Vorteil, dass sie das Flaggschiff-Modell nicht erst mit Dutzenden GPUs selbst bereithalten müssen; der Nachteil ist, dass weiterhin eine Internetverbindung erforderlich ist und die Rechenressourcen je nach Auslastung in der Ollama-Cloud verteilt werden.
Für eine vollständig lokale Ausführung müssen die Gewichte deepseek-ai/DeepSeek-V4-Pro von Hugging Face bezogen werden; erst mit einer INT4-Quantisierungsversion (z. B. den von Unsloth bereitgestellten GGUF) und einer Multi-GPU-Konfiguration ist es praktikabel. Übliche Consumer-Hardware reicht nicht aus, um das vollständige Modell zu tragen.
Einzeiliger Befehl zum Verbinden von Claude Code, Hermes Agent, OpenClaw
Ollama synchronisiert auch Veröffentlichungen für Integrations-Launcher-Befehle für gängige Agent-Tools:
直接對話 ollama run deepseek-v4-pro:cloud # verbindet Claude Code ollama launch claude --model deepseek-v4-pro:cloud # 串接 Hermes Agent ollama launch hermes --model deepseek-v4-pro:cloud # verbindet OpenClaw / OpenCode / Codex ollama launch openclaw --model deepseek-v4-pro:cloud ollama launch opencode --model deepseek-v4-pro:cloud ollama launch codex --model deepseek-v4-pro:cloud
Die Bedeutung: Entwickler mussten in der Vergangenheit, wenn sie in Claude Code von DeepSeek auf etwas anderes umsteigen wollten, dies über eine OpenAI-kompatible API selbst zusammenbauen und dabei Endpoints sowie Authentifizierung handhaben; jetzt kann das über einen einzigen Ollama-Befehl erledigt werden. Für Nutzer, die Claude Code stark verwenden, bietet das einen schnellen Pfad, um ein Anthropic-Modell durch DeepSeek (oder analog auch Kimi) zu ersetzen, um die Kosten zu senken.
Reaktionen von frühen Testern: Geschwindigkeit von 30 tok/s bis Peak 1,1 tok/s
In den Community-Diskussionen unter dem Tweet zeigt sich, dass die Geschwindigkeit der Cloud-Inferenz je nach Auslastung der Ollama-Cloud variiert. Mehrere frühe Tester berichteten, dass in Spitzenzeiten die Geschwindigkeit eher langsam sei: von der normalen 30 Tokens/s auf das Niveau von 1,1 Tokens/s. Nutzer @benvargas stellte direkt einen Screenshot online und beschwerte sich „Need More Compute“. Ollama gab in einer weiteren Antwort zu, dass das offizielle Team „auch mit diesem Modell spielt“, was darauf hindeutet, dass der Traffic sich noch in einer Erkundungsphase befindet und noch keine vollständige Kapazitätsplanung erfolgt ist.
Für Entwickler, die eine stabile Produktionslinien-Geschwindigkeit anstreben, lautet die aktuelle Empfehlung: Cloud-Modus für Prototypentests und Kostenschätzungen verwenden; für ein echtes Produkt müssen weiterhin eigene GPU-Inferenzanlagen aufgebaut oder eine kommerzielle API gewählt werden. Ollama hat auch ein vollständiges Tutorial ergänzt, das die Punkte V4 Pro sowie die Abwägung zwischen Cloud und lokal ausführlich erklärt.
Dieser Artikel DeepSeek V4 Pro auf Ollama Cloud: Claude Code per One-Click verbinden erschien zuerst bei Kettennachrichten ABMedia.