OpenAI публикует протокол сети суперкомпьютера MRC! В сотрудничестве с Nvidia, AMD и Microsoft создаёт базовую инфраструктуру Stargate

OpenAI объявила о запуске нового AI суперкомпьютерного сетевого протокола MRC (Multipath Reliable Connection) и уже открыла исходный код через Open Compute Project (OCP). Эта технология разработана OpenAI совместно с AMD, Microsoft, NVIDIA, Intel, Broadcom и другими компаниями. Ее цель — устранить узкие места в передаче данных между GPU в сверхкрупных кластерах для обучения AI.

Настоящая «бутылочная горлышко» при обучении AI — это то, как GPU общаются друг с другом

OpenAI заявляет, что по мере того, как число еженедельных пользователей ChatGPT превысило 900 миллионов, AI-системы все больше превращаются в услуги уровня базовой инфраструктуры. Чтобы поддержать потребности в обучении и инференсе следующего поколения моделей, OpenAI считает, что нужно эволюционировать не только сами модели, но и сетевую архитектуру — ее необходимо заново спроектировать.

В технической статье OpenAI указывает, что при обучении больших AI-моделей одна тренировочная итерация может включать обмен данными между GPU — сотни тысяч раз. Даже если задержка передачи возникнет в одном из соединений, это может привести к тому, что весь обучающий процесс синхронно остановится, из-за чего множество GPU простаивает.

А по мере того, как масштаб AI суперкомпьютеров становится все больше, проблемы вроде сетевого затора, отказов коммутаторов и дрожания задержки (jitter) быстро усиливаются. OpenAI считает, что это также одна из ключевых технических задач в проекте суперкомпьютера Stargate.

В сетевых архитектурах дата-центров в прошлом большинство решений использовали однопутевую передачу (single-path). Но главное изменение MRC в том, что один и тот же поток данных может одновременно распределяться по сотням путей передачи.

Что такое MRC? OpenAI: сделать AI-сеть автоматом, который объезжает препятствия

Согласно заявлениям OpenAI и AMD, ключевые идеи MRC заключаются в том, чтобы:

разбивать данные и передавать по множеству путей одновременно

автоматически обходить сбои на уровне микросекунд

снижать задержку, вызванную сетевым затором

держать GPU в синхронной работе

AMD описывает, что традиционные AI-сети похожи на скоростное шоссе, которое едет только по одному маршруту: стоит возникнуть пробке или аварии — и это отражается на общем прогрессе. MRC же — это интеллектуальная транспортная система с возможностью мгновенного объезда. AMD даже прямо заявляет: «При масштабировании реальная «бутылочная горлышко» — это уже не GPU и CPU, а сеть».

Почему OpenAI понадобилось спроектировать сетевой протокол самостоятельно?

Сигнал на этот раз от OpenAI очень однозначен: конкуренция в AI — это уже не только соревнование моделей, а конкуренция целого набора «суперкомпьютерной инфраструктуры». В статье OpenAI упоминает, что до появления Stargate они вместе с партнерами уже поддерживали три поколения AI суперкомпьютеров. Эти практические знания привели OpenAI к выводу: чтобы эффективно использовать вычислительные мощности в масштабе Stargate, весь stack нужно существенно уменьшить по сложности. И в том числе — сетевой уровень.

То есть в конкуренции Frontier Model в будущем важнее будет не просто у кого модель сильнее, а кто сможет эффективнее синхронизировать работу десятков тысяч и даже сотен миллионов GPU.

За MRC стоит Stargate: «мегапроект» OpenAI в стиле Манхэттена

Фоном для MRC является Stargate LLC. Stargate — это проект масштабной AI-инфраструктуры, который продвигают OpenAI, SoftBank Group, Oracle Corporation и MGX. Изначально цель заключалась в инвестициях в США до 500B долларов в AI-инфраструктуру. OpenAI сообщает, что сейчас проект уже превысил первоначальную этапную цель в 10 GW, а за последние 90 дней добавилось более 3 GW мощностей AI-инфраструктуры.

Суперкомпьютер Stargate, расположенный в Abilene (Техас), является одной из основных площадок развертывания MRC. OpenAI отмечает, что MRC уже интегрирован в новейший сетевой интерфейс 800Gb/s и в реальных крупных тренировочных кластерах работает в боевом режиме.

Эта статья «OpenAI публикует MRC — суперкомпьютерный сетевой протокол! В партнерстве с NVIDIA, AMD и Microsoft создают инфраструктуру Stargate» впервые появилась на сайте Цепные новости ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Инженер Coinbase: AI-агенты могут нарушить модель веб-рекламы

Эрик Реппель, инженер Coinbase, заявил, что ИИ-агенты могут принципиально подорвать бизнес-модель интернета, зависящую от рекламы. По словам Реппеля, веб-экономика в значительной степени опирается на рекламные доходы, генерируемые пользователями-людьми, но ИИ-агенты обходят эту систему

CryptoFrontier35м назад

xAI сотрудничает с Anthropic, чтобы предоставить доступ к вычислениям Colossus

По официальным заявлениям xAI и Anthropic, эти две компании создали новое вычислительное партнёрство. SpaceX’s xAI подписала соглашение, чтобы предоставить Anthropic доступ к вычислительным ресурсам Colossus. Anthropic планирует использовать эту дополнительную вычислительную мощность для

GateNews55м назад

Платформа для рекрутинга с помощью ИИ Ethos завершила раунд Series A на сумму 22,75 млн долларов под руководством a16z 6 мая

По данным BlockBeats, лондонская платформа AI-рекрутинга Ethos завершила раунд финансирования Series A на сумму 22,75 миллиона долларов 6 мая; Andreessen Horowitz (a16z) возглавил раунд, а General Catalyst принял участие. Платформа использует ИИ для интервьюирования кандидатов и анализирует

GateNews2ч назад

OpenAI запускает протокол MRC Network с AMD, Intel, NVIDIA; поддерживает 100 000+ GPU

В объявлении OpenAI от 6 мая компания сообщила, что сотрудничает с AMD, Broadcom, Intel, Microsoft и NVIDIA для запуска Multipath Reliable Connection (MRC) — открытого сетевого протокола для соединения GPU в кластерах крупномасштабного AI-обучения. Протокол разбивает одиночные передачи данных на несколько

GateNews3ч назад

Акции Hut 8 взлетели на 34% на фоне сделки по аренде дата-центра для ИИ на 9,8 миллиарда долларов

По данным The Block, акции Hut 8 Corp. подскочили на 34% до $107,87 в ходе предварительных торгов сегодня после того, как компания подписала договор аренды на $9,8 миллиарда для кампуса центра данных по искусственному интеллекту в округе Нуэсе, штат Техас, спроектированного под вычислительную архитектуру NVIDIA. Сделка представляет собой первую фазу Hu

GateNews3ч назад
комментарий
0/400
Нет комментариев