OpenAI anuncia el lanzamiento de un nuevo protocolo de red para una súper computadora de IA, MRC (Multipath Reliable Connection), y ya lo ha liberado de forma open source a través de Open Compute Project (OCP). Esta tecnología fue desarrollada conjuntamente por OpenAI y empresas como AMD, Microsoft, NVIDIA, Intel y Broadcom, con el objetivo de resolver el cuello de botella de la transferencia de datos entre GPU en súper clústeres de entrenamiento de IA a gran escala.
El verdadero cuello de botella del entrenamiento de IA es cómo se comunican las GPU
OpenAI afirma que, a medida que el número de usuarios semanales de ChatGPT ya supera los 900 millones, los sistemas de IA se están convirtiendo gradualmente en un servicio de nivel de infraestructura. Para respaldar las necesidades de entrenamiento y inferencia de los próximos modelos, OpenAI considera que no solo el modelo en sí debe evolucionar, sino que también es necesario rediseñar por completo la arquitectura de red.
En un artículo técnico, OpenAI señala que, durante el entrenamiento de modelos grandes de IA, un solo paso de entrenamiento puede involucrar intercambios de datos entre GPU que pueden llegar a millones de veces. Con que uno de los transportes tenga una latencia, podría hacer que todo el entrenamiento se detenga por sincronización, lo que terminaría dejando ociosas a un gran número de GPU.
Y cuando el tamaño de la súper computadora de IA sigue creciendo, problemas como la congestión de red, fallas de conmutadores y el jitter de latencia (jitter) se amplifican rápidamente. OpenAI cree que esta es una de las principales dificultades técnicas del proyecto de súper computadora Stargate.
En el pasado, la arquitectura de redes de centros de datos, en su mayoría, utilizaba transmisión de una sola ruta (single-path). Pero el mayor cambio de MRC es permitir que la misma pieza de datos se distribuya simultáneamente en cientos de rutas de transmisión.
¿Qué es MRC? OpenAI: hacer que la red de IA evite obstáculos de forma automática
De acuerdo con OpenAI y AMD, la idea central de MRC es:
Dividir los datos y hacer que recorran múltiples rutas al mismo tiempo
Evitar automáticamente fallos a nivel de microsegundos
Reducir la latencia causada por la congestión de red
Mantener a las GPU funcionando sincronizadas
AMD describe que las redes de IA tradicionales se parecen a una autopista que solo usa una ruta; si se produce una congestión o un accidente, eso afecta el progreso general; en cambio, MRC se parece a un sistema de tráfico inteligente con capacidad de desvío en tiempo real. AMD incluso dijo con franqueza: «El verdadero cuello de botella al escalar la IA ya no son la GPU y la CPU, sino la red».
¿Por qué OpenAI necesita diseñar por sí misma el protocolo de red?
La señal de esta vez por parte de OpenAI es muy clara: la competencia en IA ya no es solo una competencia de modelos, sino una competencia de toda la «infraestructura de súper computadora». En el artículo, OpenAI menciona que antes de que apareciera Stargate, ellos y sus socios habían mantenido conjuntamente tres generaciones de súper computadoras de IA. Estas experiencias llevaron a OpenAI a una conclusión: si se quiere aprovechar la capacidad de cómputo de manera efectiva en el tamaño de Stargate, toda la pila debe reducir significativamente la complejidad, incluyendo la capa de red.
Dicho de otra forma, en la competencia del Frontier Model del futuro, ya no se tratará solo de quién tiene un modelo más potente, sino de quién puede sincronizar de manera más eficiente decenas de miles e incluso cientos de miles de GPU.
Stargate es la base de MRC: el plan de Manhattan de OpenAI
El trasfondo de MRC, en realidad, es Stargate LLC. Stargate es un plan de infraestructura de IA a gran escala impulsado por OpenAI, SoftBank Group, Oracle Corporation y MGX, con el objetivo inicial de invertir en infraestructura de IA de hasta 5.000 millones de dólares en Estados Unidos. OpenAI señala que, actualmente, ya superaron la meta temporal original de más de 10GW y, en los últimos 90 días, se añadió más de 3GW de capacidad de infraestructura de IA.
La súper computadora Stargate ubicada en Abilene, Texas, es uno de los principales entornos donde se despliega MRC. OpenAI indica que MRC ya se integró en la última interfaz de red de 800Gb/s y que se ha ejecutado en operación real en clústeres de entrenamiento a gran escala.
Este artículo de OpenAI publica el protocolo de red de la súper computadora MRC, ¡con el apoyo de NVIDIA, AMD y Microsoft para construir la infraestructura de Stargate! Lo primero en aparecer en la cadena de noticias ABMedia.
Artículos relacionados
Los sueños de Claude de Anthropic: el agente se organiza la memoria entre tareas, eliminando duplicados y contradicciones
Anthropic compite con el poder de cómputo de SpaceX: logra Colossus 1 con 22.000 GPU en toda la infraestructura, Claude elimina los límites de uso
Ingeniero de Coinbase: los agentes de IA podrían alterar el modelo de publicidad web
Anthropic duplica los límites de tasa de Claude Code después de asegurar 300MW de capacidad mediante un acuerdo con SpaceX
La plataforma de contratación con IA Ethos cierra una ronda de financiación Serie A de 22,75 millones de dólares liderada por a16z el 6 de mayo