Данные обучения DeepSeek V4 удвоены до 33T — возникла нестабильность, из-за которой релиз был отложен

Сообщение Gate News, 24 апреля — технический отчет DeepSeek о V4 показывает, что V4-Flash и V4-Pro были предварительно обучены соответственно на 32T и 33T токенах, то есть вдвое больше, чем примерно 15T токенов, использованных для V3. В отчете признается, что при обучении сталкивались с «существенными проблемами нестабильности»: всплески лосса многократно возникали из-за аномалий в слое Mixture-of-Experts (MoE); сам механизм маршрутизации усугубляет эти аномалии, и простое откатывание не может решить проблему.

DeepSeek внедрила два решения, которые теперь применяются в реальном обучении: Предвосхищающее маршрутизирование, которое отделяет вычисление индекса маршрутизации от обновлений магистральной (backbone) сети и автоматически запускает процесс только при обнаружении всплесков лосса (добавляя примерно 20% накладных расходов), и Ограничение SwiGLU, которое напрямую подавляет аномалии, ограничивая значения активаций фиксированным диапазоном. В отчете говорится, что оба подхода эффективны, но признается: «базовые принципы по-прежнему недостаточно изучены».

Сьюзен Чжан (Susan Zhang), исследователь из Google DeepMind, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением данных обучения, «объясняет задержку». Она охарактеризовала два решения как «костыли», при этом отметив техническую прозрачность DeepSeek.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Финская AI-лаборатория QuTwo завершила $29M раунд seed при оценке $380M ; предыдущая компания основателя Silo AI была продана AMD за $665 млн

По данным Beating, финская AI-лаборатория QuTwo завершила раунд посевного финансирования на 25 миллионов евро (примерно $29 миллионов) с пост-оценкой в 325 миллионов евро (примерно $380 миллионов). Основатель и исполнительный председатель Питер Сарлин ранее основал Silo AI, которую AMD приобрела за $665 миллионов в 2024 году.

GateNews19м назад

DeepSeek оценили в $45B , поскольку фонд по госинвестициям в полупроводники Китая рассматривает лид-раунд инвестиций

Согласно ChainCatcher, китайский государственно поддерживаемый фонд инвестиций в полупроводники ведёт переговоры, чтобы возглавить раунд Series A DeepSeek, потенциально оценивая ИИ-лабораторию примерно в 45 миллиардов долларов. Переговоры о финансировании продолжаются, как сообщают четыре человека, знакомые с

GateNews1ч назад

Опрос Microsoft: только 13% сотрудников считают, что инициативы компаний по стимулированию внедрения ИИ для создания инновационных рабочих мест потерпели неудачу

Согласно ежегодному отчету индекса рабочих тенденций, опубликованному Microsoft 5 мая, отчет проанализировал миллиарды анонимных сигналов продуктивности Microsoft 365 и провел опрос 20 000 сотрудников на нескольких рынках, включая США, Великобританию, Индию и Японию. Данные отчета показывают, что только 13% сотрудников заявляют, что работодатели будут поощрять их, когда попытки улучшить работу с помощью ИИ не дают ожидаемого результата.

MarketWhisper1ч назад

Meta разрабатывает ИИ-ассистента Hatch в конкуренции с OpenClaw, планирует завершить внутреннее тестирование до конца июня

Согласно сообщению Financial Times от 5 мая, Meta разрабатывает AI-ассистента Hatch для обычных пользователей, черпая вдохновение из OpenClaw от OpenAI. Цель — завершить внутренние тесты к концу июня; параллельно Meta планирует до четвертого квартала этого года интегрировать автономный агентский инструмент для покупок в свои сервисы Instagram.

MarketWhisper2ч назад

Судебные слушания OpenAI: Брокман даёт показания — Маск ранее говорил, что не будет заниматься безопасностью, а если есть акции, это может стать поводом для насилия

Как сообщила 6 мая газета New York Post, 5 мая генеральный директор OpenAI Грег Брокман дал показания в федеральном суде в Окленде (штат Калифорния), раскрыв, что при выходе Илона Маска из совета директоров OpenAI в 2018 году он выступил с обращением ко всем, заявив, что при продвижении ИИ в Tesla «не будет тратить время на безопасность», а в 2017 году он вступил в опасные переговоры с одним из сооснователей OpenAI по вопросу долей в капитале.

MarketWhisper3ч назад
комментарий
0/400
Нет комментариев