DeepSeek fügt den Vision-Modus hinzu, während chinesische Chips die Unterstützung zum Start ergänzen

DeepSeek, ein in Hangzhou ansässiges Unternehmen für künstliche Intelligenz, hat über eine neue Funktion namens „Bild-Erkennungsmodus“ dem wichtigsten Chatbot des Unternehmens Bild- und Videoerkennungsfähigkeiten hinzugefügt und ihn damit in die Nähe anderer großer KI-Chatbots gebracht. Die Einführung fiel mit einem bedeutenden Meilenstein in Chinas Chip-Lieferkette zusammen: Vier inländische Halbleiterunternehmen—Huawei Ascend, Cambricon, Hygon Information und Moore Threads—bestätigten eine Unterstützung für DeepSeek's neuestes Flaggschiff-Modell, DeepSeek-V4, am selben Tag. Damit ist ein Wandel von den zuvor üblichen mehrmonatigen Anpassungsphasen außerhalb des Nvidia-Ökosystems verbunden.

DeepSeek's Vision und Model-Erweiterung

DeepSeek hat den Bild-Erkennungsmodus stillschweigend zusammen mit zwei weiteren Modi eingeführt, die bereits in diesem Monat gestartet wurden: „expert“ und „flash“. Laut Chen Xiaokang, der das multimodale Team von DeepSeek leitet, wurde das Tool zuerst mit einer kleinen Gruppe von Nutzern sowohl auf der Website als auch in der mobilen App getestet. Chen Deli, ein leitender Forscher im Unternehmen, feierte den Launch mit einem Beitrag unter Bezugnahme auf das Logo des Unternehmens: „Der kleine Wal kann jetzt sehen.“

Die Bild- und Video-Funktion kam nur wenige Tage, nachdem DeepSeek eine Vorschau von DeepSeek-V4 veröffentlicht und die Modellgewichte für öffentlichen Download und Nutzung bereitgestellt hatte. V4 ist als zwei unterschiedliche Modelle strukturiert: DeepSeek-V4-Pro mit 1,6 Billionen Parametern, ausgelegt für komplexes Reasoning und mehrstufige automatisierte Workflows, und DeepSeek-V4-Flash, optimiert für den Umgang mit großen Anforderungsvolumina zu geringeren Kosten. Beide Modelle unterstützen ein Kontextfenster von einer Million Tokens und verwenden ein hybrides Attention-Design, das das Unternehmen zufolge die Rechenleistung und die Speicheranforderungen während der Inferenz reduziert.

Chinesische Chip-Hersteller erreichen Launch-Unterstützung am selben Tag

Was die Branche besonders in den Fokus rückte, war nicht nur das Modell selbst, sondern die abgestimmte Hardware-Unterstützung, die am Tag der V4-Veröffentlichung demonstriert wurde. Huawei Ascend bestätigte die Kompatibilität mit seinen A2-, A3- und 950-Chips: Der Ascend 950 nutzt fusionierte Rechenprozesse und parallele Verarbeitungsstreams, um die Inferenz für sowohl V4-Pro als auch V4-Flash zu beschleunigen. Cambricon schloss seine Anpassung mithilfe des Open-Source-Inferenz-Frameworks vLLM ab und veröffentlichte seinen Code auf GitHub. Hygon Information führte eine tiefe Modelloptimierung auf seiner DCU-Plattform durch, um den nahtlosen Übergang von der Modellerstellung zur Bereitstellung zu ermöglichen. Moore Threads arbeitete mit der Beijing Academy of Artificial Intelligence zusammen, um V4 auf seiner MTT S5000-Karte mithilfe des FlagOS-Software-Stacks auszuführen.

Diese Unterstützung am selben Tag über mehrere Chipsets hinweg stellt eine Abkehr von historischen Mustern dar. Zuvor brauchten Hardware außerhalb des Nvidia-Ökosystems typischerweise Monate, um die Unterstützung für große neue Modelle bereitzustellen. Branchenbeobachter weisen darauf hin, dass die Erreichung der Kompatibilität über vier unterschiedliche inländische Chipsets am Starttag eine echte Verschiebung hin zur Reife von Chinas Halbleiter- und KI-Infrastruktur signalisiert.

Strategische Implikationen: Kosten und Unabhängigkeit in der Lieferkette

Die größere Bedeutung von DeepSeek's Launch geht über einzelne technische Errungenschaften hinaus. Indem DeepSeek ermöglicht, dass V4 nativ gleichzeitig auf mehreren chinesischen Chips läuft, reduziert das Unternehmen das Abhängigkeitsrisiko von Exportbeschränkungen, die chinesische Firmen in der Vergangenheit daran gehindert haben, auf die fortschrittlichsten amerikanischen Prozessoren zuzugreifen. Kosteneffizienz bleibt ein zentraler Bestandteil der Strategie von DeepSeek—das Unternehmen hat es sich zur Priorität gemacht, die Betriebskosten des Modells niedrig zu halten, damit Unternehmen automatisierte Systeme aufbauen können, ohne dass unerschwingliche Rechenkosten entstehen.

Branchenbeobachter charakterisieren diese Veröffentlichung als Hinweis darauf, dass eine gesamte Lieferkette heranreift, statt auf einen einzelnen technologischen Durchbruch. Die Abstimmung zwischen DeepSeek, Chipherstellern und Software-Frameworks zeigt die Entwicklung eines integrierten Ökosystems. Diese Entwicklung deutet darauf hin, dass sich die Wettbewerbslandschaft in der KI verschiebt: Weg von der Fokussierung auf die technische Raffinesse einzelner Modelle hin zu der Fähigkeit, vollständige, kosteneffektive und unabhängige Systeme langfristig aufrechtzuerhalten.

FAQ

Welche neuen Fähigkeiten hat DeepSeek seinem Chatbot hinzugefügt? DeepSeek hat einen „Bild-Erkennungsmodus“ hinzugefügt, der es seinem Chatbot ermöglicht, Fotos und Videos zu verstehen—nicht nur Text. Diese Funktion wurde zuerst mit einer kleinen Gruppe von Nutzern sowohl auf der Website als auch in der mobilen App getestet und brachte DeepSeek's Fähigkeiten damit in die Nähe anderer großer KI-Chatbots, die ähnliche Möglichkeiten anbieten.

Welche chinesischen Chip-Unternehmen unterstützten DeepSeek-V4 am Launch-Tag? Vier chinesische Chip-Unternehmen bestätigten eine Unterstützung für DeepSeek-V4 am selben Tag: Huawei Ascend (mit A2-, A3- und 950-Chips), Cambricon, Hygon Information und Moore Threads. Diese Same-Day-Kompatibilität über mehrere Chipsets hinweg war zuvor selten außerhalb des Nvidia-Ökosystems und erforderte typischerweise Monate an Anpassungsarbeit.

Was sind die zwei Versionen von DeepSeek-V4 und wie unterscheiden sie sich? DeepSeek-V4-Pro verfügt über 1,6 Billionen Parameter und ist für komplexes Reasoning sowie mehrstufige automatisierte Workflows ausgelegt, während DeepSeek-V4-Flash für die Bewältigung großer Mengen an Anfragen zu geringeren Kosten optimiert ist. Beide unterstützen ein Kontextfenster von einer Million Tokens und verwenden ein hybrides Attention-Design, um die Anforderungen an Rechenleistung und Speicher zu reduzieren.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
TransparentDomeCityvip
· 05-02 09:50
Inländische große Modelle holen ziemlich schnell auf, aber das Ökosystem ist noch ausbaufähig
Original anzeigenAntworten0
BlueGlassJellyvip
· 05-01 16:16
Hangzhou-Fabrik ist im Aufschwung, Multimodalität ist zum Standard geworden
Original anzeigenAntworten0
AprDaydreamvip
· 04-30 01:15
DeepSeek dieses Update ist großartig, endlich muss ich GPT-4V nicht mehr beneiden
Original anzeigenAntworten0
RugProofRitavip
· 04-29 21:26
Gerade das Bilderkennungstool ausprobiert, das Verständnis für Chinesisch ist tatsächlich besser als bei einer bestimmten Firma.
Original anzeigenAntworten0
ybaservip
· 04-29 20:02
Halt fest HODL💎 Halt fest HODL💎
Original anzeigenAntworten0
GateUser-0b71fc11vip
· 04-29 19:28
Vom reinen Text zu multimodal, in einem halben Jahr den Weg von anderen in zwei Jahren gehen
Original anzeigenAntworten0
MirrorBallGazingAtTheSkyvip
· 04-29 19:27
Nicht nur angeben, wurde das RAG-Illusionsproblem gelöst?
Original anzeigenAntworten0
GateUser-ced0257avip
· 04-29 19:22
Videoskennung? Bitte testen Sie die Stabilität in komplexen Szenarien.
Original anzeigenAntworten0
GateUser-8f9ccfecvip
· 04-29 19:20
Dieser Veröffentlichungszeitpunkt ist perfekt getimt, um den Chip-Hype auszunutzen.
Original anzeigenAntworten0
GateUser-cb789e81vip
· 04-29 19:15
Nur wenn die Kosten gesenkt werden, ist es wirklich Können, warte auf die API-Preise
Original anzeigenAntworten0
Mehr anzeigen