DeepSeekの学習データが33Tまで倍増、リリースを遅らせた不安定性が発生
Gate Newsメッセージ、4月24日 — DeepSeekのV4技術レポートによると、V4-FlashとV4-Proはそれぞれ32Tおよび33Tトークンで事前学習されており、V3で使用された約15Tトークンの約2倍です。レポートでは、学習中に「重大な不安定性の課題」に遭遇したことを認めており、損失スパイクがMixture-of-Experts MoE層の異常によって繰り返し発生していました。ルーティング機構そのものがこれらの異常を悪化させており、単純なロールバックでは問題を解決できないとしています。