DeepSeek V4 запускается с окном контекста 1M; чипы Huawei Ascend и Cambricon достигают полной совместимости

Сообщение Gate News, 24 апреля — DeepSeek V4-Pro и DeepSeek V4-Flash были официально выпущены и с открытым исходным кодом 24 апреля; при этом длина контекстной обработки была существенно расширена с 128K до 1M, что соответствует почти 10-кратному увеличению пропускной способности. Huawei Computing объявила, что ее продукты Ascend supernode полностью поддерживают модели серии DeepSeek V4 благодаря тесному сотрудничеству между технологиями чипа и модели.

Ascend 950 обеспечивает развертывание инференса моделей DeepSeek V4 с высокой пропускной способностью и низкой задержкой за счет методов склеивания ядер и параллелизма в несколько потоков, чтобы снизить накладные расходы на вычисления Attention и обращения к памяти. Для DeepSeek V4-Pro с входом 8K Ascend 950 достигает примерно 20ms TPOT при 4,700 TPS на одно устройство в режиме Decode; для DeepSeek V4-Flash при входе до 8K он достигает примерно 10ms TPOT при пропускной способности 1,600 TPS. Серия Ascend A3 supernode также обеспечивает полную совместимость: предоставлены эталонные реализации для быстрого дообучения. На основе supernode Ascend A3 из 64 карт с большим режимом EP DeepSeek V4-Flash достигает более 2,000 TPS на одну карту в режиме Decode в сценариях вход-выход 8K/1K, используя движок инференса vLLM. Полные линейки продуктов Huawei Ascend A2, A3 и 950 поддерживают как DeepSeek V4-Flash, так и V4-Pro.

Huawei Cloud объявила о совместимости с DeepSeek V4 для самых первых, предоставив разработчикам сервисы API token в один клик через свою платформу MaaS. Huawei Cloud оптимизировала возможности системного уровня, уровня операторов и уровня кластера, чтобы обеспечить быструю адаптацию моделей и высокопроизводительное развертывание. Компании, включая Kingsoft WPS и 360, уже интегрировали новую модель DeepSeek через Huawei Cloud.

Cambricon также объявила о совместимости Day 0 с DeepSeek V4-Flash и V4-Pro на основе фреймворка инференса vLLM, а код адаптации был с открытым исходным кодом опубликован для сообщества GitHub. Ранее Cambricon уже достигла совместимости для самых первых при выпуске DeepSeek V3.2 в прошлом году: она провела глубокую оптимизацию совместной производительности ПО и оборудования на моделях серии DeepSeek.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Мечты Claude от Anthropic: агент сам упорядочивает память между задачами, устраняет дубликаты и противоречия

Anthropic на мероприятии Code with Claude объявила Dreams: чтобы Claude Managed Agents автоматически систематизировали воспоминания, устраняли дубликаты и противоречия между несколькими сессиями, а также обновляли устаревшие записи, выводя проверяемую сводную базу воспоминаний; входной лимит — 100 сессий и 4 096 символов, асинхронное выполнение, занимает от нескольких минут до нескольких десятков минут, поддерживает наблюдение в режиме стриминга. Исследовательский превью-тест нужно подать отдельно; пока что доступна только поддержка claude-opus-4-7 и claude-sonnet-4-6, дата официального релиза не определена.

ChainNewsAbmedia12м назад

Anthropic заключает сделку с SpaceX по вычислительным мощностям: получает Colossus 1 целиком — 220 тыс. GPU, а для Claude снимают ограничения

Anthropic объявила о сотрудничестве по вычислительным мощностям с SpaceX для дата-центра Colossus 1: будет задействовано более 220 тыс. GPU Nvidia, мощность — свыше 300MW. Планируется, что в течение месяца вся инфраструктура будет полностью развернута для использования Anthropic, чтобы улучшить вычисления и впечатления для Claude и Code. Параллельно будет ослаблен лимит потребления для Pro/Max/Team/Enterprise каждые 5 часов, отменены лимиты на пиковые нагрузки и повышена скорость Opus API. Также одновременно расширяется базовая инфраструктура в Азии и Европе; в будущем есть намерения вроде «орбитальных AI-вычислений», но сделок пока не заключено.

ChainNewsAbmedia23м назад

Инженер Coinbase: AI-агенты могут нарушить модель веб-рекламы

Эрик Реппель, инженер Coinbase, заявил, что ИИ-агенты могут принципиально подорвать бизнес-модель интернета, зависящую от рекламы. По словам Реппеля, веб-экономика в значительной степени опирается на рекламные доходы, генерируемые пользователями-людьми, но ИИ-агенты обходят эту систему

CryptoFrontier57м назад

Anthropic удваивает лимиты скорости для Claude Code после того, как обеспечила 300 МВт мощности по сделке с SpaceX

По данным Odaily, Anthropic подписала соглашение с SpaceX, чтобы получить доступ ко всей вычислительной мощности ЦОД Colossus 1, обеспечив более 300 мегаватт новой мощности и более 220 000 NVIDIA GPU в течение месяца. Начиная с момента вступления в силу, лимиты скорости Claude Code на пять часов для Pro,

GateNews1ч назад

OpenAI публикует протокол сети суперкомпьютера MRC! В сотрудничестве с Nvidia, AMD и Microsoft создаёт базовую инфраструктуру Stargate

OpenAI опубликовала протокол MRC для AI-суперкомпьютерной сети, сотрудничая с AMD, Microsoft, NVIDIA и другими, и открыла исходный код в OCP. MRC разбивает данные и одновременно прокладывает несколько маршрутов, выполняет уклонение от препятствий на уровне микросекунд, снижает перегрузки, поддерживает синхронизацию GPU и решает проблему транспортных узких мест в крупных тренировочных кластерах. На площадках, включая Stargate в Техасе (Abilene), уже развернуты интерфейсы 800 Гбит/с и протокол задействован в реальном обучении.

ChainNewsAbmedia1ч назад

Платформа для рекрутинга с помощью ИИ Ethos завершила раунд Series A на сумму 22,75 млн долларов под руководством a16z 6 мая

По данным BlockBeats, лондонская платформа AI-рекрутинга Ethos завершила раунд финансирования Series A на сумму 22,75 миллиона долларов 6 мая; Andreessen Horowitz (a16z) возглавил раунд, а General Catalyst принял участие. Платформа использует ИИ для интервьюирования кандидатов и анализирует

GateNews2ч назад
комментарий
0/400
Нет комментариев