DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.

Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.

Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Berkshire Energy бачить можливість для зростання через попит на електроенергію, що зумовлений ШІ

За словами Beating, на зборах акціонерів Berkshire генеральний директор Ейбел підкреслив, що попит на електроенергію, який зумовлює ШІ, створює нові можливості для зростання енергетичного бізнесу компанії: половина її енергетичних комунальних підприємств уже забезпечує потреби в електроенергії, пов’язані з ШІ. В Айові дата-центри тепер акаун

GateNews2год тому

Позов Муска проти Альтмана: свідчення за перший тиждень — він визнав, що XAI «дистилює» OpenAI, і попередив, що ШІ діятиме як «Термінатор»

Маск у федеральному суді Окленда в перший тиждень слухань заявив у свідченнях, що Сем Альтман і Brockman нібито шахрайським шляхом заволоділи ранніми коштами некомерційної організації, попереджав про ризики «AI-апокаліпсису» та визнав, що частина того, що робить xAI, «частково дистилювалась» з моделей OpenAI; він також стверджував, що вніс 38 млн доларів США, і був свідком того, як OpenAI перейшла з некомерційного формату до оцінки в 800 млрд доларів США. Інвестиція Microsoft у 2022 році вважається переломним моментом, що означав крах довіри. OpenAI заперечує, що Маск намагався переманити кадри, і відкидає звинувачення, посилаючись на конкурента й відповідні мотиви. У подальшому на другому тижні у справі свідчитимуть Russell і Brockman.

ChainNewsAbmedia3год тому

Повʼязана з Трампом AI-фінансова компанія купує Block Street за 43 мільйони доларів

За даними Fortune, AI Financial — криптовалютна компанія, пов’язана з родиною Трампа та раніше відома як Alt5 Sigma — минулого тижня придбала Block Street, фірму з криптоінфраструктури, за 43 мільйони доларів. Меттью Морган, радник AI Financial і CEO Block Street, заявив, що придбання не було

GateNews4год тому

Акції Riot зростають на 8% після розширення угоди з AMD щодо дата-центрів

Акції майнера Bitcoin Riot зросли на 8% після розширення його угоди з AMD щодо дата-центру. Розширене партнерство включає поліпшені умови фінансування, що підкреслює стратегічний зсув Riot від майнінгу bitcoin у бік операцій дата-центрів для штучного інтелекту. Цей крок сигналізує про зростання впевненості

GateNews7год тому

У Міннесоті заборонили інструменти на базі ШІ для створення інтимних зображень без згоди та запровадили штрафи до $500K

За даними Decrypt, законодавчі органи штату Міннесота ухвалили законопроєкт 2 травня, який забороняє вебсайтам і застосункам надавати інструменти ШІ, що генерують інтимні зображення без згоди щодо ідентифікованих осіб. Закон забороняє платформам дозволяти користувачам отримувати доступ або використовувати такі інструменти «діпфейк» і забороняє

GateNews8год тому

Користувачі ChatGPT тепер можуть отримувати доступ до підписок на платформі OpenClaw, — оголошує Сем Альтман

Згідно з оголошенням Сема Альтмана сьогодні, користувачі ChatGPT тепер можуть входити на платформу агентів OpenClaw, використовуючи свої акаунти ChatGPT, і напряму отримувати доступ до наявних підписок ChatGPT на цій платформі.

GateNews9год тому
Прокоментувати
0/400
Немає коментарів