OpenAI publica el protocolo de la red supercomputadora MRC. En colaboración con NVIDIA, AMD y Microsoft para crear la infraestructura de Stargate

OpenAI anuncia el lanzamiento de un nuevo protocolo de red para una súper computadora de IA, MRC (Multipath Reliable Connection), y ya lo ha liberado de forma open source a través de Open Compute Project (OCP). Esta tecnología fue desarrollada conjuntamente por OpenAI y empresas como AMD, Microsoft, NVIDIA, Intel y Broadcom, con el objetivo de resolver el cuello de botella de la transferencia de datos entre GPU en súper clústeres de entrenamiento de IA a gran escala.

El verdadero cuello de botella del entrenamiento de IA es cómo se comunican las GPU

OpenAI afirma que, a medida que el número de usuarios semanales de ChatGPT ya supera los 900 millones, los sistemas de IA se están convirtiendo gradualmente en un servicio de nivel de infraestructura. Para respaldar las necesidades de entrenamiento y inferencia de los próximos modelos, OpenAI considera que no solo el modelo en sí debe evolucionar, sino que también es necesario rediseñar por completo la arquitectura de red.

En un artículo técnico, OpenAI señala que, durante el entrenamiento de modelos grandes de IA, un solo paso de entrenamiento puede involucrar intercambios de datos entre GPU que pueden llegar a millones de veces. Con que uno de los transportes tenga una latencia, podría hacer que todo el entrenamiento se detenga por sincronización, lo que terminaría dejando ociosas a un gran número de GPU.

Y cuando el tamaño de la súper computadora de IA sigue creciendo, problemas como la congestión de red, fallas de conmutadores y el jitter de latencia (jitter) se amplifican rápidamente. OpenAI cree que esta es una de las principales dificultades técnicas del proyecto de súper computadora Stargate.

En el pasado, la arquitectura de redes de centros de datos, en su mayoría, utilizaba transmisión de una sola ruta (single-path). Pero el mayor cambio de MRC es permitir que la misma pieza de datos se distribuya simultáneamente en cientos de rutas de transmisión.

¿Qué es MRC? OpenAI: hacer que la red de IA evite obstáculos de forma automática

De acuerdo con OpenAI y AMD, la idea central de MRC es:

Dividir los datos y hacer que recorran múltiples rutas al mismo tiempo

Evitar automáticamente fallos a nivel de microsegundos

Reducir la latencia causada por la congestión de red

Mantener a las GPU funcionando sincronizadas

AMD describe que las redes de IA tradicionales se parecen a una autopista que solo usa una ruta; si se produce una congestión o un accidente, eso afecta el progreso general; en cambio, MRC se parece a un sistema de tráfico inteligente con capacidad de desvío en tiempo real. AMD incluso dijo con franqueza: «El verdadero cuello de botella al escalar la IA ya no son la GPU y la CPU, sino la red».

¿Por qué OpenAI necesita diseñar por sí misma el protocolo de red?

La señal de esta vez por parte de OpenAI es muy clara: la competencia en IA ya no es solo una competencia de modelos, sino una competencia de toda la «infraestructura de súper computadora». En el artículo, OpenAI menciona que antes de que apareciera Stargate, ellos y sus socios habían mantenido conjuntamente tres generaciones de súper computadoras de IA. Estas experiencias llevaron a OpenAI a una conclusión: si se quiere aprovechar la capacidad de cómputo de manera efectiva en el tamaño de Stargate, toda la pila debe reducir significativamente la complejidad, incluyendo la capa de red.

Dicho de otra forma, en la competencia del Frontier Model del futuro, ya no se tratará solo de quién tiene un modelo más potente, sino de quién puede sincronizar de manera más eficiente decenas de miles e incluso cientos de miles de GPU.

Stargate es la base de MRC: el plan de Manhattan de OpenAI

El trasfondo de MRC, en realidad, es Stargate LLC. Stargate es un plan de infraestructura de IA a gran escala impulsado por OpenAI, SoftBank Group, Oracle Corporation y MGX, con el objetivo inicial de invertir en infraestructura de IA de hasta 5.000 millones de dólares en Estados Unidos. OpenAI señala que, actualmente, ya superaron la meta temporal original de más de 10GW y, en los últimos 90 días, se añadió más de 3GW de capacidad de infraestructura de IA.

La súper computadora Stargate ubicada en Abilene, Texas, es uno de los principales entornos donde se despliega MRC. OpenAI indica que MRC ya se integró en la última interfaz de red de 800Gb/s y que se ha ejecutado en operación real en clústeres de entrenamiento a gran escala.

Este artículo de OpenAI publica el protocolo de red de la súper computadora MRC, ¡con el apoyo de NVIDIA, AMD y Microsoft para construir la infraestructura de Stargate! Lo primero en aparecer en la cadena de noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Los sueños de Claude de Anthropic: el agente se organiza la memoria entre tareas, eliminando duplicados y contradicciones

Anthropic en la conferencia Code with Claude dio a conocer Dreams, con el que Claude Managed Agents puede ordenar automáticamente la memoria entre múltiples conversaciones, eliminar duplicados y contradicciones, y actualizar entradas desactualizadas, generando un repositorio de memoria posterior verificable. El límite de entrada es de 100 sesiones y 4.096 caracteres; se ejecuta de forma asíncrona y se completa en minutos a decenas de minutos, con soporte para observación en streaming. La vista previa para investigación requiere solicitud; por ahora solo admite claude-opus-4-7 y claude-sonnet-4-6, y la fecha de lanzamiento oficial aún no está definida.

ChainNewsAbmediahace1h

Anthropic compite con el poder de cómputo de SpaceX: logra Colossus 1 con 22.000 GPU en toda la infraestructura, Claude elimina los límites de uso

Anthropic anunció que llegó a un acuerdo de colaboración de potencia informática con SpaceX para el centro de datos Colossus 1, utilizando más de 220.000 GPU Nvidia, con una capacidad de más de 300MW. Se espera que en el plazo de un mes se despliegue completamente para el uso de Anthropic, mejorando el rendimiento y la experiencia de Claude y Code. Al mismo tiempo, se amplían los límites de uso por cada 5 horas para Pro/Max/Team/Enterprise, se elimina el límite en horas pico y se incrementa la velocidad de la API de Opus. La infraestructura en Asia y Europa también se expande simultáneamente; a futuro hay otras intenciones como “cómputo de IA en órbita”, aunque aún no se ha cerrado ningún contrato.

ChainNewsAbmediahace1h

Ingeniero de Coinbase: los agentes de IA podrían alterar el modelo de publicidad web

Erik Reppel, un ingeniero de Coinbase, dijo que los agentes de inteligencia artificial podrían socavar fundamentalmente el modelo de negocio de internet, que depende de la publicidad. Según Reppel, la economía web depende en gran medida de los ingresos publicitarios generados por usuarios humanos, pero los agentes de IA eluden ese sistema

CryptoFrontierhace2h

Anthropic duplica los límites de tasa de Claude Code después de asegurar 300MW de capacidad mediante un acuerdo con SpaceX

Según Odaily, Anthropic ha firmado un acuerdo con SpaceX para acceder a la capacidad informática total del centro de datos Colossus 1, asegurando más de 300 megavatios de nueva capacidad y más de 220.000 GPUs NVIDIA en el plazo de un mes. En vigor de inmediato, los límites de tasa de Claude Code de cinco horas para Pro,

GateNewshace2h

La plataforma de contratación con IA Ethos cierra una ronda de financiación Serie A de 22,75 millones de dólares liderada por a16z el 6 de mayo

Según BlockBeats, la plataforma de contratación de IA con sede en Londres Ethos completó una ronda de financiación Serie A de 22,75 millones de dólares el 6 de mayo, con Andreessen Horowitz (a16z) liderando la ronda y General Catalyst participando. La plataforma utiliza IA para entrevistar a los candidatos y analiza

GateNewshace4h
Comentar
0/400
Sin comentarios