DeepSeek выпускает серию открытых моделей V4 с 1,6T параметров и лицензией MIT

Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.

Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.

Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Berkshire Energy видит возможность роста из-за спроса на электроэнергию, обусловленного ИИ-driven спросом

Согласно Beating, на собрании акционеров Berkshire генеральный директор Абель подчеркнул, что спрос на электроэнергию, формируемый с помощью ИИ, создает новые возможности роста для энергетического бизнеса компании: половина ее энергетических коммунальных предприятий уже обеспечивает электропитание, связанное с требованиями ИИ. В Айове дата-центры теперь составляют…

GateNews1ч назад

Свидетельские показания в первую неделю процесса Маска против Альтмана: признал, что XAI дистиллировала («выпаривала») OpenAI, и предупредил, что ИИ может стать как Терминатор

На первой неделе показаний в федеральном суде США в Окленде Илон Маск утверждал, что Аттман и Брокман мошеннически присвоили ранние средства некоммерческой организации, предупреждал о рисках «ИИ-апокалипсиса» и признался, что часть xAI он «перегнал» из моделей OpenAI; он рассказал, что вложил 38 млн долларов, и был свидетелем того, как OpenAI перешла из статуса некоммерческой структуры в компанию с оценкой 800 млрд долларов. Инвестиции Microsoft в 2022 году рассматриваются как поворотный момент в разрушении доверия. OpenAI заявляет, что Маск пытался переманить людей и пытается оправдаться конкурентными мотивами. Позже, на второй неделе, свидетелями выступили Расселл и Брокман.

ChainNewsAbmedia3ч назад

Связанный с Трампом ИИ-финансовый стартап покупает Block Street за 43 миллиона долларов

Согласно Fortune, AI Financial — криптовалютная компания, связанная с семьёй Трампа и ранее известная как Alt5 Sigma — на прошлой неделе приобрела Block Street, компанию в сфере криптоинфраструктуры, за 43 миллиона долларов. Мэтью Морган, советник AI Financial и генеральный директор Block Street, заявил, что приобретение было не…

GateNews4ч назад

Акции Riot подскочили на 8% после расширения сделки с AMD по центрам обработки данных

Акции майнера Bitcoin Riot выросли на 8% после расширения соглашения с AMD по дата-центрам. Расширенное партнерство включает улучшенные условия финансирования, подчеркивая стратегический сдвиг Riot от майнинга bitcoin к операциям дата-центров для искусственного интеллекта. Этот шаг сигнализирует о растущей уверенности

GateNews6ч назад

Миннесота запрещает инструменты для ИИ, создающие интимные изображения без согласия, и вводит штрафы до $500K

По данным Decrypt, законодательное собрание Миннесоты 2 мая приняло законопроект, запрещающий веб-сайтам и приложениям предоставлять AI-инструменты, которые генерируют не полученные с согласия интимные изображения идентифицируемых людей. Закон запрещает платформам разрешать пользователям получать доступ к таким инструментам «диджитал-двойников» или использовать их, а также запрещает размещение

GateNews8ч назад

Пользователи ChatGPT теперь могут получать доступ к подпискам на платформе OpenClaw — Сэм Альтман объявил

Согласно объявлению Сэма Альтмана сегодня, пользователи ChatGPT теперь могут входить в агентскую платформу OpenClaw, используя свои аккаунты ChatGPT, и напрямую получать доступ к своим существующим подпискам ChatGPT на платформе.

GateNews9ч назад
комментарий
0/400
Нет комментариев