Dynamic Load Balancing: AI Fabric를 위한 Adaptive Routing

정적 해시 ECMP은 GPU collective가 아니라 north-south 웹 트래픽을 위해 만들어졌습니다. OcNOS Dynamic Load Balancing(DLB)은 1밀리초 미만 간격으로 flowlet을 덜 혼잡한 경로에 재배치하여, 분산 학습 워크로드에서 Ethernet과 InfiniBand 간의 격차를 좁힙니다.

Leaf-Spine 패브릭에서의 Adaptive Routing

GPU AllReduce 트래픽을 전달하는 4-spine, 2-leaf 슬라이스. DLB는 로컬 egress queue 깊이를 실시간으로 측정합니다. Spine-3이 포화되면 leaf는 다음 flowlet을 Spine-2로 재배치하여 4개 uplink 모두의 균형을 유지합니다.

AI leaf-spine fabric 전반의 Dynamic Load Balancing 4-spine, 2-leaf AI 패브릭입니다. leaf에 연결된 GPU 서버가 AllReduce 플로우를 전송합니다. 세 개의 spine 경로가 균형 잡힌 flowlet을 전달합니다. 네 번째 spine은 혼잡(빨간색) 상태이며, Dynamic Load Balancing이 다음 flowlet을 부하가 더 적은 spine으로 재배치합니다. 하단 밴드는 DLB 지표를 표시합니다: 큐 깊이, 포트 사용률, flowlet 재배치. Spine-3 혼잡 → 다음 flowlet이 Spine-2로 재바인딩 Spine-1 큐 18% Spine-2 큐 22% Spine-3 큐 92% Spine-4 큐 25% Leaf-1 DLB · flowlet Leaf-2 DLB · flowlet GPU-0 GPU-1 GPU-2 GPU-3 DLB · QUEUE-DEPTH FEEDBACK · FLOWLET REBIND · CONGESTION-AWARE ECMP

AI 패브릭에서 정적 ECMP가 실패하는 이유

표준 ECMP은 플로우 시작 시점에 5-tuple을 해싱하여 송신 포트를 선택하고, 해당 플로우의 전체 수명 동안 그 포트에 고정합니다. 수백만 개의 단기 플로우로 구성된 north-south 웹 트래픽에서는 대수의 법칙에 따라 경로 전반의 사용률이 고르게 평준화됩니다. 반면 AI fabric에서는 소수의 elephant flow GPU 집합 통신(AllReduce, AllGather, All-to-All)에서 발생하며, 각각이 한 번에 수 초 동안 400G 또는 800G 업링크 전체를 소모합니다. 동일한 업링크에 해싱된 두 개의 elephant flow는 해당 작업이 지속되는 동안 충돌하는 반면, 다른 업링크는 유휴 상태로 남습니다.

그 결과는 hash polarisation입니다: 측정된 fabric 활용률이 약 50~60%로 무작위 핫스팟이 발생하고, 전체 학습 작업을 멈추게 하는 tail-latency 이상치가 나타납니다. DLB는 ASIC의 실시간 egress 큐 깊이와 포트 활용률 텔레메트리를 사용하여, 작은 패킷 간 간격으로 구분되는 sub-flow 청크인 모든 flowlet마다 경로 결정을 재평가함으로써 이 격차를 해소합니다.

OcNOS DLB 구현

Flowlet 탐지

밀리초 미만 갭 타이머

ASIC 네이티브 flowlet 비활성 타이머(일반적으로 16~256 µs)는 긴 elephant 플로우를 청크로 분할하여 TCP/RoCEv2 재정렬 없이 여러 경로에 안전하게 분산시킵니다.

경로 품질

실시간 큐 깊이 피드백

DLB는 Tomahawk 파이프라인으로부터 이그레스 포트별 큐 점유율 및 링크 사용률 신호를 받아, 모든 ECMP 넥스트홉을 실시간으로 점수화합니다.

Re-bind

적응형 next-hop 선택

flowlet 경계에서 가장 품질이 높은 member가 선택됩니다. member 품질은 수 마이크로초마다 재계산되므로, 포화된 spine은 하나의 flowlet 내에 후보 집합에서 제외됩니다.

Lossless

Co-tuned with PFC & ECN

DLB는 RoCEv2 무손실 스택 (PFC, ECN/DCQCN, 헤드룸 계산)과 통합되므로, pause 프레임이 업스트림으로 전파되기 전에 flowlet 재바인딩이 이루어집니다.

텔레메트리

gNMI 내보내기

멤버별 rebind 횟수, flowlet-gap 분포, 멤버 품질 점수가 폐루프 fabric 튜닝을 위해 gNMI dial-out으로 스트리밍됩니다.

하드웨어

TH4 / TH5 네이티브

Broadcom Tomahawk 4(25.6T) 및 Tomahawk 5(51.2T) 스파인 플랫폼에서 64×400G 및 64×800G 포트 구성으로 검증되었으며, 소프트웨어 패스트패스 성능 저하가 없습니다.

상용 AI 패브릭에서 DLB가 제공하는 효과

  • 활용도 향상. 업계에 공개된 flowlet 재조정 벤치마크에 따르면, 동일한 하드웨어에서 추가 uplink 구매 없이 패브릭 사용률이 static ECMP의 약 55%에서 90% 이상으로 향상됩니다.
  • 테일 레이턴시 감소. 다른 링크가 유휴 상태로 있는 동안 어느 단일 링크도 포화되지 않으므로 P99.9 collective 완료 시간이 단축됩니다.
  • 더 빠른 학습. 가장 느린 rank를 기다리며 GPU가 유휴 상태로 머무는 시간이 줄어들면, AllReduce 집약적 워크로드에서 측정 가능한 실제 처리 시간 개선이 나타납니다.
  • NIC 변경 불필요. DLB는 스위치 ASIC에서 동작합니다. 기존 RoCEv2 NIC와 xCCL (NCCL / RCCL / oneCCL) 컬렉티브 스택은 코드 변경 없이 올바른 순서로 전달받습니다.
  • 하나의 라이선스. DLB는 OcNOS-DC PLUS SKU에 포함되어 있습니다: 같은 이미지, 같은 지원 계약, 기능별 추가 비용 없음.

GPU 패브릭에 맞춰 DLB를 튜닝 중이신가요? 네트워크 아키텍트와 상담하십시오.

기술 데모 요청하기 →