Сообщение Gate News, 22 апреля — студент Принстонского PhD Ифань Чжан раскрыл полные технические спецификации DeepSeek V4 в X, после превью от 19 апреля. V4 имеет 1,6 трлн общих параметров и облегчённую версию V4-Lite с 285 млрд параметров.
Модель использует механизм внимания DSA2, который сочетает прежний DSA (DeepSeek Sparse Attention) из V3.2 и NSA (Native Sparse Attention) с векторами представления голов 512 измерений, в паре с Sparse Multi-Query Attention (MQA) и Sliding Window Attention (SWA). Слой MoE (Mixture of Experts) содержит 384 эксперта, из которых активируются 6 за один прямой проход, с использованием Fused MoE Mega-Kernel. Остаточные соединения используют архитектуру Hyper-Connections.
Детали обучения, раскрытые впервые, включают использование оптимизатора Muon (applying Newton-Schulz orthogonalization to momentum updates) для обновлений по импульсу, контекстное окно предобучения на 32K токенов и GRPO (Group Relative Policy Optimization) с коррекцией по расхождению KL во время обучения с подкреплением. Итоговое контекстное окно расширено до 1 млн токенов. Модель — только текстовая.
Чжан не работает в DeepSeek, и компания официально не прокомментировала раскрытую информацию.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Число случаев программ-вымогателей в 2025 году выросло на 389% до 7 831 — сообщает Fortinet Reports
По данным Fortinet, число глобальных случаев вымогательского ПО выросло на 389% в годовом исчислении до 7 831 в 2025 году, поскольку киберпреступники использовали ИИ и ускорили атаки на уязвимости в ПО. Наиболее нацеленной отраслью было производство: 1 284 случая, затем деловые услуги — 824 и розничная торговля — 682.
Fortine
GateNews11м назад
Blackstone, KKR, EQT ведут переговоры с Alphabet о сделках по портфелю активов в сфере ИИ
По данным Bloomberg, Blackstone, KKR и базирующаяся в Швеции EQT ведут переговоры с Alphabet о предоставлении компаниям из их портфелей доступа к моделям ИИ Google через портфельные контракты. Обсуждения носят неэксклюзивный характер и могут не привести к сделкам. Такая договорённость позволила бы Google получить более широкие
GateNews21м назад
Финская AI-лаборатория QuTwo завершила $29M раунд seed при оценке $380M ; предыдущая компания основателя Silo AI была продана AMD за $665 млн
По данным Beating, финская AI-лаборатория QuTwo завершила раунд посевного финансирования на 25 миллионов евро (примерно $29 миллионов) с пост-оценкой в 325 миллионов евро (примерно $380 миллионов). Основатель и исполнительный председатель Питер Сарлин ранее основал Silo AI, которую AMD приобрела за $665 миллионов в 2024 году.
GateNews51м назад
DeepSeek оценили в $45B , поскольку фонд по госинвестициям в полупроводники Китая рассматривает лид-раунд инвестиций
Согласно ChainCatcher, китайский государственно поддерживаемый фонд инвестиций в полупроводники ведёт переговоры, чтобы возглавить раунд Series A DeepSeek, потенциально оценивая ИИ-лабораторию примерно в 45 миллиардов долларов. Переговоры о финансировании продолжаются, как сообщают четыре человека, знакомые с
GateNews1ч назад
Опрос Microsoft: только 13% сотрудников считают, что инициативы компаний по стимулированию внедрения ИИ для создания инновационных рабочих мест потерпели неудачу
Согласно ежегодному отчету индекса рабочих тенденций, опубликованному Microsoft 5 мая, отчет проанализировал миллиарды анонимных сигналов продуктивности Microsoft 365 и провел опрос 20 000 сотрудников на нескольких рынках, включая США, Великобританию, Индию и Японию. Данные отчета показывают, что только 13% сотрудников заявляют, что работодатели будут поощрять их, когда попытки улучшить работу с помощью ИИ не дают ожидаемого результата.
MarketWhisper2ч назад
Meta разрабатывает ИИ-ассистента Hatch в конкуренции с OpenClaw, планирует завершить внутреннее тестирование до конца июня
Согласно сообщению Financial Times от 5 мая, Meta разрабатывает AI-ассистента Hatch для обычных пользователей, черпая вдохновение из OpenClaw от OpenAI. Цель — завершить внутренние тесты к концу июня; параллельно Meta планирует до четвертого квартала этого года интегрировать автономный агентский инструмент для покупок в свои сервисы Instagram.
MarketWhisper2ч назад