Юйфань Чжан розкриває повні технічні специфікації DeepSeek V4: 1,6T параметрів, 384 експерти з 6 активаціями

Повідомлення Gate News, 22 квітня — аспірант Принстонського університету Юйфань Чжан розкрив повні технічні характеристики DeepSeek V4 у X після попереднього анонсу 19 квітня. V4 має загалом 1,6 трильйона параметрів і полегшений варіант V4-Lite, який містить 285 мільярдів параметрів.

Модель використовує механізм уваги DSA2, який поєднує попередню DSA (DeepSeek Sparse Attention) від V3.2 та NSA (Native Sparse Attention) із вкладеннями для голови розмірністю 512, у парі з Sparse Multi-Query Attention (MQA) та Sliding Window Attention (SWA). Рівень MoE (Mixture of Experts) містить 384 експерти, з 6 активованими під час кожного прямого проходу, із використанням Fused MoE Mega-Kernel. Від’ємні зв’язки застосовують архітектуру Hyper-Connections.

Деталі тренування, розкриті вперше, включають використання оптимізатора Muon (applying Newton-Schulz orthogonalization to momentum updates), контекстного вікна для попереднього навчання на 32K токенів, а також GRPO (Group Relative Policy Optimization) з корекцією за розбіжністю KL під час підкріплювального навчання. Кінцеве контекстне вікно розширюється до 1 мільйона токенів. Модель є лише текстовою.

Чжан не працює в DeepSeek, і компанія офіційно не коментувала розкриту інформацію.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Законодавці Колорадо пропонують заміну закону про ШІ, щоб вирішити занепокоєння галузі

Законодавці штату Колорадо рухаються до того, щоб скасувати й замінити закон штату про штучний інтелект 2024 року, SB24-205, новими правилами, які звужують сферу регулювання ШІ, одночасно вирішуючи занепокоєння індустрії щодо навантаження з комплаєнсу. Нова пропозиція, SB26-189, регулюватиме системи ШІ, які використовуються в

CryptoFrontier4год тому

R0AR виходить у фінальний раунд Consensus 2026 PitchFest, але з вузьким відривом не потрапляє до топ-20

За даними MetaversePost, R0AR 4 травня вийшов у фінальний раунд відбору CoinDesk Consensus 2026 PitchFest, лише трохи не потрапив до топ-20 стартапів, обраних для прямих презентацій. Інноватор у сфері Web3 та AI оцінювався разом із перспективними стартапами з усього світу на одному з майданчиків галузі

GateNews8год тому

Маск вимагає виплати $150 мільярдів як мирову угоду з OpenAI до судового розгляду; перемовини про врегулювання провалилися

Згідно з поданням до суду, Ілон Маск звернувся до президента OpenAI Грега Брокмана 26 квітня — за два дні до початку їхнього процесу в федеральному суді Окленда — щоб обговорити врегулювання. Коли Брокман запропонував, щоб обидві сторони відмовилися від своїх позовів, Маск відповів погрозами, сказавши Брокману: «До кінця

GateNews8год тому

Cursor прийняв пропозицію щодо придбання від SpaceX на 60 мільярдів доларів, але не буде партнеритися з xAI над моделями для кодування

За даними The Information, Cursor прийняв умовну пропозицію про придбання на суму 60 мільярдів доларів від SpaceX, хоча угоду ще не було остаточно завершено. Наразі компанія не планує співпрацювати з підрозділом SpaceX з AI xAI у розробці моделей для програмування. Натомість Cursor зосереджується на оптимізації його

GateNews9год тому

Haun Ventures закриває фонд на 1 мільярд доларів 4 травня, розподіляє капітал між ранніми та пізніми криптоінвестиціями

За даними Bloomberg, Haun Ventures завершила раунд залучення $1 мільярд 4 травня, при цьому $500 мільйонів було виділено на інвестиції на ранній стадії та $500 мільйонів — на пізніші інвестиції. Фонд спрямовуватиме капітал протягом наступних двох-трьох років, націлюючись на стартапи у сфері криптовалют і блокчейну, а також розширюватиме

GateNews9год тому

OpenAI збільшує $4 мільярда для запуску спільного підприємства з розгортання, оціненого в 10 мільярдів доларів

За даними BlockBeats, 4 травня OpenAI залучила понад $4 мільярда для створення нового спільного підприємства, зосередженого на допомозі компаніям впроваджувати її програмне забезпечення з штучного інтелекту. Підприємство під назвою The Deployment Company підтримують 19 інвесторів, зокрема TPG Inc., Brookfield Asset Management,

GateNews10год тому
Прокоментувати
0/400
Немає коментарів