Gate News Nachricht, 24. April — DeepSeek hat die V4-Serie Open-Source-Modelle unter der MIT-Lizenz veröffentlicht; die Gewichte sind nun auf Hugging Face und ModelScope verfügbar. Die Serie umfasst zwei Mixture-of-Experts-(MoE)-Modelle: V4-Pro mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktivierten pro Token sowie V4-Flash mit 284 Milliarden Gesamtparametern und 13 Milliarden aktivierten pro Token. Beide unterstützen ein Kontextfenster von 1 Million Token.
Die Architektur bietet drei zentrale Upgrades: einen hybriden Aufmerksamkeitsmechanismus, der komprimierte spärliche Attention (CSA) und stark komprimierte Attention (HCA) kombiniert, wodurch der Overhead für Long-Context deutlich reduziert wird — die Inferenz-FLOPs von V4-Pro für 1M Kontext betragen lediglich 27% von denen von V3.2, und der KV-Cache (VRAM zum Speichern historischer Informationen während der Inferenz) liegt nur bei 10% von dem von V3.2; manifold-beschränkte Hyperverbindungen (mHC) ersetzen traditionelle Residualverbindungen, um die Stabilität der Signalübertragung zwischen Schichten zu verbessern; und der Muon-Optimizer für schnellere Trainingskonvergenz. Das Pre-Training verwendete über 32 Billionen Token an Daten.
Beim Post-Training wird ein zweistufiger Ansatz genutzt: Zuerst werden domänenspezifische Experten trainiert, über supervised fine-tuning (SFT) und GRPO-Reinforcement-Learning, dann werden sie zu einem einzelnen Modell zusammengeführt, durch Online-Distillation. V4-Pro-Max (highest inference mode) beansprucht, das stärkste Open-Source-Modell mit erstklassigen Coding-Benchmarks zu sein und die Lücken zu Closed-Source-Frontier-Modellen bei Reasoning- und Agent-Tasks deutlich zu verringern. V4-Flash-Max erreicht Pro-Level-Reasoning-Performance mit ausreichend Budget für Rechenleistung, ist jedoch durch die Parametervolumen-Größe bei reinem Wissen und komplexen Agent-Tasks begrenzt. Die Gewichte werden in gemischter FP4+FP8-Präzision gespeichert.