Balanceo de carga dinámico: enrutamiento adaptativo para AI Fabrics
El ECMP de hash estático se construyó para el tráfico web norte-sur, no para los colectivos de GPU. El Dynamic Load Balancing (DLB) de OcNOS reasigna los flowlets a rutas menos congestionadas en intervalos de menos de un milisegundo, cerrando la brecha entre Ethernet e InfiniBand para las cargas de trabajo de entrenamiento distribuido.
Enrutamiento adaptativo en un fabric Leaf-Spine
Una porción de 4 spines y 2 leafs que transporta tráfico de GPU AllReduce. DLB mide la profundidad de la cola de egreso local en tiempo real. Cuando el Spine-3 se satura, el leaf revincula el siguiente flowlet al Spine-2, manteniendo equilibrados los cuatro uplinks.
Por qué el ECMP estático falla en los tejidos de IA
El ECMP estándar elige un puerto de salida aplicando un hash a la 5-tupla al inicio del flujo y fija ese flujo allí durante toda su vida útil. En el tráfico web norte-sur, con millones de flujos de corta duración, la ley de los grandes números uniformiza la utilización entre las rutas. En un fabric de IA, usted tiene un número reducido de flujos elefante de los colectivos de GPU (AllReduce, AllGather, All-to-All) que consumen cada uno un enlace ascendente completo de 400G o 800G durante segundos a la vez. Dos elefantes con hash sobre el mismo enlace ascendente colisionarán durante toda la operación, mientras otro enlace ascendente permanece inactivo.
El resultado es la polarización del hash: una utilización medida del fabric en torno al 50–60 % con puntos calientes aleatorios, y valores atípicos de latencia de cola que detienen todo el trabajo de entrenamiento. DLB cierra esta brecha reevaluando la decisión de ruta en cada flowlet, un fragmento de subflujo delimitado por un pequeño intervalo entre paquetes, utilizando telemetría en vivo de profundidad de cola de egreso y de utilización de puertos proveniente del ASIC.
La implementación de DLB de OcNOS
Temporizador de intervalo submilisegundo
El temporizador de inactividad de flowlet nativo del ASIC (típicamente 16–256 µs) divide los flujos elephant largos en fragmentos seguros para distribuir entre rutas sin reordenamiento de TCP/RoCEv2.
Retroalimentación en vivo de la profundidad de cola
DLB consume señales de ocupación de cola por puerto de egreso y de utilización de enlace de la canalización Tomahawk para puntuar cada siguiente salto ECMP en tiempo real.
Selección adaptativa del siguiente salto
En el límite del flowlet, se selecciona el miembro de mayor calidad. La calidad de los miembros se recalcula cada pocos microsegundos, de modo que un spine saturado queda fuera del conjunto de candidatos en un solo flowlet.
Co-tuned with PFC & ECN
DLB se integra con la pila RoCEv2 sin pérdidas (PFC, ECN/DCQCN, cálculo de holgura), de modo que la reasignación de flowlets ocurre antes de que las tramas de pausa se propaguen aguas arriba.
exportación gNMI
Los conteos de revinculación por miembro, las distribuciones de intervalo de flowlet y las puntuaciones de calidad de miembro se transmiten por gNMI dial-out para el ajuste del fabric en lazo cerrado.
TH4 / TH5 nativo
Validado en plataformas spine Broadcom Tomahawk 4 (25.6T) y Tomahawk 5 (51.2T), en configuraciones de puertos 64×400G y 64×800G, sin penalización de software en el fast-path.
Lo que ofrece DLB en fabrics de IA en producción
- Mayor utilización. Los benchmarks de reequilibrio de flowlets publicados por la industria llevan la utilización de la fabric desde ~55% con ECMP estático hacia más del 90% en el mismo hardware, sin comprar más uplinks.
- Menor latencia de cola. El tiempo de finalización colectiva P99.9 se ajusta porque ningún enlace individual se satura mientras otros permanecen inactivos.
- Entrenamiento más rápido. Menos tiempo de inactividad de la GPU esperando al rank más lento se traduce en una mejora medible del tiempo de ejecución en cargas de trabajo intensivas en AllReduce.
- Sin cambios de NIC. El DLB reside en el ASIC del conmutador. Los NIC RoCEv2 existentes y las pilas de colectivos xCCL (NCCL / RCCL / oneCCL) ven entrega en orden correcta sin cambios de código.
- Una sola licencia. DLB forma parte del SKU OcNOS-DC PLUS: la misma imagen, el mismo contrato de soporte, sin complemento por función.