AI Fabric Topologies: Rail-Optimized & Scheduled Designs
La forma de su fabric decide la forma de su trabajo de entrenamiento. Esta página presenta las tres topologías de referencia contra las que OcNOS-DC se valida, rail-only, rail-optimized y Clos de 3 etapas planificado, dimensionadas en conteos de puertos concretos sobre hardware Broadcom Tomahawk 4 y Tomahawk 5.
Elija por la cantidad de GPU, no por la palabra de moda
Una topología de fabric de IA tiene una sola tarea: mantener every el enlace de salida de la GPU se satura durante una operación colectiva sin generar valores atípicos de latencia de cola. La topología correcta es la más pequeña que logra esto para su cantidad de GPU, con una ruta de respaldo para el siguiente tamaño superior. A continuación: tres diseños de referencia que OcNOS-DC valida hoy, con cálculos de puertos concretos.
Pod único solo de rail
Una fila de racks, ocho ToR alineados por rail. Sin capa spine. Diseño colapsado de dos niveles.
Rail-optimized leaf-spine
Leaves alineados por rail con una capa de spine compartida. El tráfico este-oeste entre rails utiliza el spine; el tráfico intra-rail permanece local.
Clos programado de 3 etapas
Leaf, spine, super-spine. Sobresuscripción 1:1 sin bloqueo de extremo a extremo. DLB en cada nivel; GLB de extremo a extremo con OcNOS 7.1.
Fabric programado a escala
Clos de 3 etapas multipod con un plano super-spine. Dimensionado para la clase de entrenamiento de un billón de parámetros.
Single Pod optimizado para rieles
Cada servidor GPU tiene 8 NIC, una por «rail» (un canal de colectivo xCCL (NCCL / RCCL / oneCCL) dedicado). Cada rail tiene su propio leaf dedicado, los 8 NIC de cada servidor aterrizan, por tanto, en leaves distintos. AllReduce a través del rail-N permanece dentro del leaf-N. No hay presión este-oeste sobre el spine para el patrón colectivo dominante.
Componentes de OcNOS: Underlay EVPN-VXLAN, BGP unnumbered, RoCEv2 sin pérdidas en cada leaf, DLB en la capa spine. Validado sobre leaves Edgecore AS9736-64D (TH4) y spines AIS800-64D / UfiSpace S9321-64E (TH5).
Programada frente a alineada por rieles: qué cambia a escala
El diseño optimizado para rieles (rail-optimized) deja de escalar en algún punto entre 1k y 2k GPU: se agota el radix de los leaf, o el nivel spine queda demasiado sobresuscrito. Por encima de eso, toda red AI moderna es un Clos de 3 etapas: leaf, spine, super-spine. El descriptor «scheduled» se refiere al uso de planificación de fabric programado basado en celdas or programación basada en créditos sobre el Clos para llevar la utilización hacia 1.0: exactamente lo que UEC y GLB están diseñados para hacer.
Fabric programada Clos de 3 etapas: 4.096–16.384 GPU
Tres niveles: leaf, spine, super-spine. Cada GPU está exactamente a cuatro saltos de switch de cualquier otra GPU. Sin bloqueo cuando las cuentas de densidad cuadran. DLB en cada salto, GLB a lo largo de toda la ruta con OcNOS 7.1, packet-spray UEC en NICs compatibles con UEC.
Componentes de OcNOS: Underlay eBGP unnumbered, overlay multi-tenant EVPN-VXLAN, RoCEv2 sin pérdidas, DLB en cada nivel, GLB de extremo a extremo en la rama OcNOS 7.1, telemetría en streaming gNMI hacia su stack de observabilidad. Validado en chasis TH5 de 64×800G en todo el recorrido.
Multi-DC y DCI para entrenamiento distribuido
Cuando una sola ejecución de entrenamiento abarca más de una sala de datos, algo cada vez más común para los modelos de billones de parámetros, el fabric se extiende a través de la WAN. OcNOS-DC admite óptica coherente 400G ZR / ZR+ directamente en el spine para una DCI sin transpondedor, con extensión de túnel EVPN que transporta tenants VXLAN entre sitios.
Fabric de IA multi-DC: DCI coherente
Dos centros de datos de IA unidos mediante 400G ZR/ZR+ en el spine. EVPN inter-DC transporta la extensión de inquilinos L2/L3; el Clos de 3 etapas subyacente en cada sitio permanece sin cambios.
Componentes de OcNOS: Óptica coherente pluggable 400G ZR/ZR+ en el propio spine, EVPN inter-DC para la extensión L2/L3 de inquilinos, telemetría gNMI entre sitios. No se requieren transpondedores externos.
Reglas prácticas de diseño
- Ajuste la topología a la cantidad de GPU. Pods más pequeños (por debajo del radix de NIC de un solo leaf): rail-only es suficiente. Escala de un solo pod: leaf-spine optimizado por rail. Multipod: el Clos de 3 etapas es el único diseño que escala sin compromisos de sobresuscripción.
- Siempre sobresuscripción 1:1 en el plano de IA. Los racks de almacenamiento y CPU pueden operar con mayor sobresuscripción. El plano de GPU no debería.
- Planifique el número de rails a partir de xCCL, no de la conveniencia del cableado. 8 rieles es el estándar de facto actual para servidores de GPU con 8 NIC. No combine rieles en menos leaves.
- Elija el silicio por potencia y densidad, no por la marca. TH4 (25,6T) y TH5 (51,2T) son los caballos de batalla; la elección entre ellos depende del consumo del rack y del costo del cable de breakout.
- Planifique para GLB / UEC desde el diseño. Construya el plano de telemetría desde el primer día, incluso en un fabric 7.0, de modo que la actualización a OcNOS 7.1 GLB sea puramente un paso de software. Consulte GLB and Ultra Ethernet.
- Valide contra la HCL. Cada referencia aquí está construida sobre hardware listado en el Lista de compatibilidad de hardware de OcNOS; elija a partir de ahí para obtener soporte de primer nivel.