AI Fabric Topologies: Rail-Optimized & Scheduled Designs

La forma de su fabric decide la forma de su trabajo de entrenamiento. Esta página presenta las tres topologías de referencia contra las que OcNOS-DC se valida, rail-only, rail-optimized y Clos de 3 etapas planificado, dimensionadas en conteos de puertos concretos sobre hardware Broadcom Tomahawk 4 y Tomahawk 5.

Elija por la cantidad de GPU, no por la palabra de moda

Una topología de fabric de IA tiene una sola tarea: mantener every el enlace de salida de la GPU se satura durante una operación colectiva sin generar valores atípicos de latencia de cola. La topología correcta es la más pequeña que logra esto para su cantidad de GPU, con una ruta de respaldo para el siguiente tamaño superior. A continuación: tres diseños de referencia que OcNOS-DC valida hoy, con cálculos de puertos concretos.

256GPUs

Pod único solo de rail

Una fila de racks, ocho ToR alineados por rail. Sin capa spine. Diseño colapsado de dos niveles.

8 × TH4 leaves · 32 GPUs/leaf
1,024GPUs

Rail-optimized leaf-spine

Leaves alineados por rail con una capa de spine compartida. El tráfico este-oeste entre rails utiliza el spine; el tráfico intra-rail permanece local.

32 leaves · 8 spines · combinación TH4 / TH5
4,096GPUs

Clos programado de 3 etapas

Leaf, spine, super-spine. Sobresuscripción 1:1 sin bloqueo de extremo a extremo. DLB en cada nivel; GLB de extremo a extremo con OcNOS 7.1.

128 leaves · 64 spines · 16 super-spines (TH5)
16,384GPUs

Fabric programado a escala

Clos de 3 etapas multipod con un plano super-spine. Dimensionado para la clase de entrenamiento de un billón de parámetros.

512 leaves · 256 spines · 64 super-spines (TH5 800G)
Diseño de referencia 1

Single Pod optimizado para rieles

Cada servidor GPU tiene 8 NIC, una por «rail» (un canal de colectivo xCCL (NCCL / RCCL / oneCCL) dedicado). Cada rail tiene su propio leaf dedicado, los 8 NIC de cada servidor aterrizan, por tanto, en leaves distintos. AllReduce a través del rail-N permanece dentro del leaf-N. No hay presión este-oeste sobre el spine para el patrón colectivo dominante.

AI fabric optimizado por rieles: 8 rieles, 8 leaves, nivel spine compartido Fabric de IA optimizado por rieles. Ocho servidores GPU en la parte inferior tienen cada uno ocho NICs alineadas con ocho rail-leaves. El Rail-N de cada servidor se conecta al leaf-N. Un nivel de spine por encima de los leaves transporta el tráfico entre rieles. El tráfico dominante de AllReduce permanece dentro de un riel, sin atravesar nunca el spine. Spine-1TH5 · 800G Spine-2TH5 · 800G Spine-3TH5 · 800G Spine-4TH5 · 800G Rail-1leaf Rail-2leaf Rail-3leaf Rail-4leaf Rail-5leaf Rail-6leaf Rail-7leaf Rail-8leaf GPU Server 1 8 × NIC · 8 rieles GPU Server 2 8 × NIC · 8 rieles GPU Server 3 8 × NIC · 8 rieles GPU Server 4 8 × NIC · 8 rieles RAIL-OPTIMIZED · 8 RAILS · INTRA-RAIL ALLREDUCE STAYS LOCAL

Componentes de OcNOS: Underlay EVPN-VXLAN, BGP unnumbered, RoCEv2 sin pérdidas en cada leaf, DLB en la capa spine. Validado sobre leaves Edgecore AS9736-64D (TH4) y spines AIS800-64D / UfiSpace S9321-64E (TH5).

Programada frente a alineada por rieles: qué cambia a escala

El diseño optimizado para rieles (rail-optimized) deja de escalar en algún punto entre 1k y 2k GPU: se agota el radix de los leaf, o el nivel spine queda demasiado sobresuscrito. Por encima de eso, toda red AI moderna es un Clos de 3 etapas: leaf, spine, super-spine. El descriptor «scheduled» se refiere al uso de planificación de fabric programado basado en celdas or programación basada en créditos sobre el Clos para llevar la utilización hacia 1.0: exactamente lo que UEC y GLB están diseñados para hacer.

Diseño de referencia 2

Fabric programada Clos de 3 etapas: 4.096–16.384 GPU

Tres niveles: leaf, spine, super-spine. Cada GPU está exactamente a cuatro saltos de switch de cualquier otra GPU. Sin bloqueo cuando las cuentas de densidad cuadran. DLB en cada salto, GLB a lo largo de toda la ruta con OcNOS 7.1, packet-spray UEC en NICs compatibles con UEC.

Topología programada de fabric de IA Clos de 3 etapas Topología Clos de tres etapas. El nivel superior muestra cuatro switches super-spine. El nivel intermedio muestra ocho switches spine. El nivel inferior muestra 12 switches leaf que alimentan pods de GPU. Enlaces de malla completa de leaf a spine y de spine a super-spine. Etiquetas de la banda inferior: fabric programada de 4096 GPU, DLB en cada nivel, GLB de extremo a extremo con OcNOS 7.1. Super-Spine-1 Super-Spine-2 Super-Spine-3 Super-Spine-4 Spine-1 Spine-2 Spine-3 Spine-4 Spine-5 Spine-6 Spine-7 Spine-8 L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 L11 L12 SUPER-SPINE SPINE LEAF GPU PODS 12 pods · ~340 GPU/pod · 4.096 GPU en total · TH5 · 800G CLOS DE 3 ETAPAS · 4.096 GPU · DLB EN CADA SALTO · GLB E2E (OcNOS 7.1) · LISTO PARA UEC

Componentes de OcNOS: Underlay eBGP unnumbered, overlay multi-tenant EVPN-VXLAN, RoCEv2 sin pérdidas, DLB en cada nivel, GLB de extremo a extremo en la rama OcNOS 7.1, telemetría en streaming gNMI hacia su stack de observabilidad. Validado en chasis TH5 de 64×800G en todo el recorrido.

Multi-DC y DCI para entrenamiento distribuido

Cuando una sola ejecución de entrenamiento abarca más de una sala de datos, algo cada vez más común para los modelos de billones de parámetros, el fabric se extiende a través de la WAN. OcNOS-DC admite óptica coherente 400G ZR / ZR+ directamente en el spine para una DCI sin transpondedor, con extensión de túnel EVPN que transporta tenants VXLAN entre sitios.

Diseño de referencia 3

Fabric de IA multi-DC: DCI coherente

Dos centros de datos de IA unidos mediante 400G ZR/ZR+ en el spine. EVPN inter-DC transporta la extensión de inquilinos L2/L3; el Clos de 3 etapas subyacente en cada sitio permanece sin cambios.

Fabric de IA multi-DC con DCI de 400G ZR/ZR+ Dos centros de datos de IA, cada uno con una fabric leaf-spine. Los dos spines se conectan a través de ópticas coherentes 400G ZR/ZR+ a lo largo de una WAN. Los túneles EVPN inter-DC extienden los tenants de un sitio al otro. Banda inferior: DCI coherente sin transpondedores. DATA CENTER A DATA CENTER B Spine-A1400G ZR+ Spine-A2400G ZR+ Spine-B1400G ZR+ Spine-B2400G ZR+ EVPN inter-DC · 400G ZR/ZR+ Leaf-A1 Leaf-A2 Leaf-A3 Leaf-B1 Leaf-B2 Leaf-B3 Pods de GPU · Sitio A Pods de GPU · Sitio B DCI COHERENTE · SIN TRANSPONDEDOR · EVPN INTER-DC · 400G ZR/ZR+

Componentes de OcNOS: Óptica coherente pluggable 400G ZR/ZR+ en el propio spine, EVPN inter-DC para la extensión L2/L3 de inquilinos, telemetría gNMI entre sitios. No se requieren transpondedores externos.

Reglas prácticas de diseño

  • Ajuste la topología a la cantidad de GPU. Pods más pequeños (por debajo del radix de NIC de un solo leaf): rail-only es suficiente. Escala de un solo pod: leaf-spine optimizado por rail. Multipod: el Clos de 3 etapas es el único diseño que escala sin compromisos de sobresuscripción.
  • Siempre sobresuscripción 1:1 en el plano de IA. Los racks de almacenamiento y CPU pueden operar con mayor sobresuscripción. El plano de GPU no debería.
  • Planifique el número de rails a partir de xCCL, no de la conveniencia del cableado. 8 rieles es el estándar de facto actual para servidores de GPU con 8 NIC. No combine rieles en menos leaves.
  • Elija el silicio por potencia y densidad, no por la marca. TH4 (25,6T) y TH5 (51,2T) son los caballos de batalla; la elección entre ellos depende del consumo del rack y del costo del cable de breakout.
  • Planifique para GLB / UEC desde el diseño. Construya el plano de telemetría desde el primer día, incluso en un fabric 7.0, de modo que la actualización a OcNOS 7.1 GLB sea puramente un paso de software. Consulte GLB and Ultra Ethernet.
  • Valide contra la HCL. Cada referencia aquí está construida sobre hardware listado en el Lista de compatibilidad de hardware de OcNOS; elija a partir de ahí para obtener soporte de primer nivel.

¿Está diseñando su AI fabric? Haremos con usted los cálculos del conteo de puertos.

Reserve una revisión de arquitectura →