DeepSeek veröffentlicht die V4-Open-Source-Modellserie mit 1,6T Parametern und MIT-Lizenz

Gate News Nachricht, 24. April — DeepSeek hat die V4-Serie Open-Source-Modelle unter der MIT-Lizenz veröffentlicht; die Gewichte sind nun auf Hugging Face und ModelScope verfügbar. Die Serie umfasst zwei Mixture-of-Experts-(MoE)-Modelle: V4-Pro mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktivierten pro Token sowie V4-Flash mit 284 Milliarden Gesamtparametern und 13 Milliarden aktivierten pro Token. Beide unterstützen ein Kontextfenster von 1 Million Token.

Die Architektur bietet drei zentrale Upgrades: einen hybriden Aufmerksamkeitsmechanismus, der komprimierte spärliche Attention (CSA) und stark komprimierte Attention (HCA) kombiniert, wodurch der Overhead für Long-Context deutlich reduziert wird — die Inferenz-FLOPs von V4-Pro für 1M Kontext betragen lediglich 27% von denen von V3.2, und der KV-Cache (VRAM zum Speichern historischer Informationen während der Inferenz) liegt nur bei 10% von dem von V3.2; manifold-beschränkte Hyperverbindungen (mHC) ersetzen traditionelle Residualverbindungen, um die Stabilität der Signalübertragung zwischen Schichten zu verbessern; und der Muon-Optimizer für schnellere Trainingskonvergenz. Das Pre-Training verwendete über 32 Billionen Token an Daten.

Beim Post-Training wird ein zweistufiger Ansatz genutzt: Zuerst werden domänenspezifische Experten trainiert, über supervised fine-tuning (SFT) und GRPO-Reinforcement-Learning, dann werden sie zu einem einzelnen Modell zusammengeführt, durch Online-Distillation. V4-Pro-Max (highest inference mode) beansprucht, das stärkste Open-Source-Modell mit erstklassigen Coding-Benchmarks zu sein und die Lücken zu Closed-Source-Frontier-Modellen bei Reasoning- und Agent-Tasks deutlich zu verringern. V4-Flash-Max erreicht Pro-Level-Reasoning-Performance mit ausreichend Budget für Rechenleistung, ist jedoch durch die Parametervolumen-Größe bei reinem Wissen und komplexen Agent-Tasks begrenzt. Die Gewichte werden in gemischter FP4+FP8-Präzision gespeichert.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare