MITライセンスと1.6Tパラメータを備えたDeepSeekのV4オープンソースモデルシリーズをリリース

ゲートニュース速報、4月24日—DeepSeekは、MITライセンスのもとでオープンソースのV4シリーズモデルをリリースしました。重みは現在Hugging FaceおよびModelScopeで利用可能です。このシリーズには2つのモーダル・エキスパート (MoE)モデルが含まれています。V4-Proは総パラメータ1.6兆で、1トークンあたり490億が有効化され、V4-Flashは総パラメータ2840億で、1トークンあたり130億が有効化されます。両方とも1,000,000トークンのコンテキストウィンドウをサポートします。

アーキテクチャには3つの重要なアップグレードがあります。圧縮されたスパース注意 (CSA) と大幅に圧縮された注意 (HCA) を組み合わせたハイブリッド注意メカニズムにより、ロングコンテキストのオーバーヘッドを大幅に削減—V4-Proの1Mコンテキストにおける推論FLOPsはV3.2のわずか27%であり、推論中に歴史情報を格納するためのKVキャッシュ (VRAM) はV3.2の10%にとどまります。従来の残差接続に代わり、層間の信号伝播の安定性を高めるマニフォールド制約付きハイパーコネクション (mHC)。そして、より速い学習収束のためのMuonオプティマイザです。事前学習では32兆トークン以上のデータを使用しました。

事後学習は2段階のアプローチを採用します。まず、教師あり微調整 (SFT) とGRPO強化学習によりドメイン固有のエキスパートを訓練し、その後オンライン蒸留によってそれらを単一モデルに統合します。V4-Pro-Max (最高推論モード)は、トップクラスのコーディングベンチマークを備え、推論およびエージェントタスクにおけるクローズドソースのフロンティアモデルとのギャップを大幅に縮めた、最強のオープンソースモデルであると主張しています。V4-Flash-Maxは、十分な計算予算がある場合にProレベルの推論性能を実現しますが、純粋な知識および複雑なエージェントタスクにおいてはパラメータ規模によって制約を受けます。重みは混合精度のFP4+FP8で保存されます。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

バークシャー・エナジー、AI駆動の電力需要による成長機会を見込む

Beatingによると、バークシャーの株主総会でCEOアベルは、AIによる電力需要が同社のエネルギー事業に新たな成長機会を生み出しており、エネルギー関連の公益事業のうちすでに半数がAI関連の電力要件に対応していると強調した。 アイオワでは、データセンターが現在

GateNews25分前

ムスク対アルトマン 訴訟の初週の証言:XAIがOpenAIを蒸留したと自認、AIはターミネーターのように警告

イーロン・マスクはオークランド連邦裁判所での最初の週の訴訟証言で、アルトマンと Brockman が初期の非営利資金をだまし取ったと主張し、AI の終末リスクを警告した。そして彼は、xAI の一部が OpenAI のモデルから部分的に蒸留されたことを自認した。彼は自ら、3,800万ドルを投じ、OpenAI が非営利から評価額 8,000億ドルへ転換したのを目撃したと述べた。 Microsoft の 2022 年の投資は、信頼の崩壊が起きた転換点と見なされた。 OpenAI は、マスクが引き抜きを狙っていたのだとし、競合他社としての動機があったことを抗弁した。 その後、第 2 週の証人には Russell と Brockman が含まれた。

ChainNewsAbmedia2時間前

トランプ関連のAI金融が4,300万ドルでブロック・ストリートを買収

フォーチュンによると、AIファイナンシャルは、かつてAlt5 Sigmaとして知られていたトランプ一家に関係する暗号資産企業で、先週、暗号資産インフラ企業のBlock Streetを4,300万ドルで買収した。AIファイナンシャルのアドバイザーでありBlock StreetのCEOであるマシュー・モーガンは、この買収が「…」ではないと述べた。

GateNews2時間前

ライオットの株価は、AMDデータセンター取引を拡大した後に8%上昇

ビットコイン・マイナーのRiotの株価は、AMDのデータセンター契約の拡大を受けて8%上昇した。拡大した提携には、改善された資金調達条件が含まれており、Riotがビットコイン採掘から人工知能のデータセンター運用へと戦略を転換していることを強調している。この動きは、信頼が高まっていることを示している

GateNews5時間前

ミネソタ州、同意のない親密な画像ツールとなるAIを禁止し、$500K の罰金を課す

Decryptによると、ミネソタ州の議会は5月2日に、特定できる個人の同意のない親密な画像を生成するAIツールを提供することを禁止する法案を可決した。この法律は、プラットフォームがそのような「ディープフェイク」ツールにユーザーがアクセスしたり使用したりすることを認めないことを禁じており、さらに、こうしたツールの提供を禁止している。

GateNews6時間前

ChatGPTのユーザーはOpenClawプラットフォームでサブスクリプションにアクセスできるようになり、サム・アルトマンが発表

Sam Altman氏の本日発表によると、ChatGPTユーザーはChatGPTアカウントを使ってOpenClawエージェント・プラットフォームにログインでき、同プラットフォーム上で既存のChatGPTサブスクリプションに直接アクセスできるようになりました。

GateNews7時間前
コメント
0/400
コメントなし