OpenAI牽頭 AMD、NVIDIA、Intel、微軟、博通巨頭罕見聯手 搞定AI網絡層

robot
摘要生成中

金色財經報導,5月7日,據快科技,OpenAI今日通過開放計算項目(OCP)正式發布MRC(多路徑可靠連接)協議,解決大規模AI訓練中的GPU網絡通信瓶頸。該協議由OpenAI與AMD、NVIDIA、Intel、微軟和博通歷時兩年聯合開發,目前已在搭載NVIDIA GB200的超算集群中投入實際使用。
MRC要解決的核心問題是:在訓練大規模AI模型時,單次數據傳輸延遲就足以導致整個訓練過程中斷,GPU集體空轉等待,而集群規模越大,由網絡擁塞、鏈路和設備故障引發的延遲問題越頻繁。MRC的方案是將單條800Gb/s網絡接口拆分為多條更小的鏈路,例如將一個接口連接至8台不同交換機,構建8條獨立的100Gb/s並行網絡,而非依賴單一800Gb/s網絡。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆