OpenAI presenta MRC: el protocolo para conectar 100.000 GPUs con solo dos capas de switches
Junto a AMD, Nvidia, Intel, Microsoft y Broadcom, OpenAI lanzó un estándar abierto de red que reduce la congestión y mejora el rendimiento en los clusters de entrenamiento más grandes del mundo.
Entrenar un modelo de IA de frontera en 2026 requiere decenas de miles de GPUs trabajando en sincronía perfecta. El cuello de botella no siempre está en las GPUs: a veces está en la red que las conecta.
OpenAI publicó los detalles técnicos de MRC —Multipath Reliable Connection— a través del Open Compute Project, el consorcio de infraestructura abierta de la industria. Los socios del protocolo incluyen a AMD, Broadcom, Intel, Microsoft y Nvidia.
El problema que MRC resuelve es concreto. En un cluster de más de 100.000 GPUs entrenando un modelo de lenguaje grande, la sincronización requiere mover cantidades masivas de datos entre chips de forma simultánea. Si la red se congestiona o un enlace falla, toda la operación puede ralentizarse. Los sistemas actuales necesitan tres o cuatro niveles de switches de red para manejar esta escala, lo que aumenta la latencia y la complejidad.
MRC permite construir redes de alto rendimiento para supercomputadoras con más de 100.000 GPUs usando solo dos niveles de switches Ethernet, sin sacrificar redundancia. El protocolo distribuye el tráfico de un solo flujo a través de cientos de rutas simultáneas —lo que en jargon técnico se llama adaptive packet spraying— eliminando la congestión en el núcleo de la red y reduciendo la variación de throughput entre flujos durante el entrenamiento sincrónico.
OpenAI ya desplegó MRC en todos sus supercomputadores grandes con GPUs GB200 de Nvidia, incluyendo el sitio con Oracle Cloud Infrastructure en Abilene, Texas, y las supercomputadoras Fairwater de Microsoft. La compañía indicó que usó la tecnología para entrenar múltiples modelos de frontera.
La relevancia de publicar esto como estándar abierto va más allá de la generosidad técnica. OpenAI tiene interés en que la infraestructura del sector evolucione en la dirección que le conviene a sus modelos. Si MRC se convierte en el estándar de facto para redes de entrenamiento a gran escala, OpenAI mantiene influencia sobre cómo se construyen los clusters de la próxima generación, independientemente de quién los opere.
Es también una señal de que la carrera por la IA ya no se pelea solo en el algoritmo o el dataset. La infraestructura de red —algo que el público nunca ve— es tan determinante como los chips.
AMD publicó sus propios detalles técnicos sobre la integración de MRC con sus GPUs Instinct el mismo día, lo que sugiere que el protocolo ya está siendo probado en producción en múltiples plataformas de hardware.