Dynamic Load Balancing: AI Fabric를 위한 Adaptive Routing

정적 해시 ECMP은 GPU collective가 아니라 north-south 웹 트래픽을 위해 만들어졌습니다. OcNOS Dynamic Load Balancing(DLB)은 1밀리초 미만 간격으로 flowlet을 덜 혼잡한 경로에 재배치하여, 분산 학습 워크로드에서 Ethernet과 InfiniBand 간의 격차를 좁힙니다.

Leaf-Spine 패브릭에서의 Adaptive Routing

GPU AllReduce 트래픽을 전달하는 4-spine, 2-leaf 슬라이스. DLB는 로컬 egress queue 깊이를 실시간으로 측정합니다. Spine-3이 포화되면 leaf는 다음 flowlet을 Spine-2로 재배치하여 4개 uplink 모두의 균형을 유지합니다.

AI 패브릭에서 정적 ECMP가 실패하는 이유

표준 ECMP은 플로우 시작 시점에 5-tuple을 해싱하여 송신 포트를 선택하고, 해당 플로우의 전체 수명 동안 그 포트에 고정합니다. 수백만 개의 단기 플로우로 구성된 north-south 웹 트래픽에서는 대수의 법칙에 따라 경로 전반의 사용률이 고르게 평준화됩니다. 반면 AI fabric에서는 소수의 elephant flow GPU 집합 통신(AllReduce, AllGather, All-to-All)에서 발생하며, 각각이 한 번에 수 초 동안 400G 또는 800G 업링크 전체를 소모합니다. 동일한 업링크에 해싱된 두 개의 elephant flow는 해당 작업이 지속되는 동안 충돌하는 반면, 다른 업링크는 유휴 상태로 남습니다.

그 결과는 hash polarisation입니다: 측정된 fabric 활용률이 약 50~60%로 무작위 핫스팟이 발생하고, 전체 학습 작업을 멈추게 하는 tail-latency 이상치가 나타납니다. DLB는 ASIC의 실시간 egress 큐 깊이와 포트 활용률 텔레메트리를 사용하여, 작은 패킷 간 간격으로 구분되는 sub-flow 청크인 모든 flowlet마다 경로 결정을 재평가함으로써 이 격차를 해소합니다.

OcNOS DLB 구현

Flowlet 탐지

밀리초 미만 갭 타이머

ASIC 네이티브 flowlet 비활성 타이머(일반적으로 16~256 µs)는 긴 elephant 플로우를 청크로 분할하여 TCP/RoCEv2 재정렬 없이 여러 경로에 안전하게 분산시킵니다.

경로 품질

실시간 큐 깊이 피드백

DLB는 Tomahawk 파이프라인으로부터 이그레스 포트별 큐 점유율 및 링크 사용률 신호를 받아, 모든 ECMP 넥스트홉을 실시간으로 점수화합니다.

Re-bind

적응형 next-hop 선택

flowlet 경계에서 가장 품질이 높은 member가 선택됩니다. member 품질은 수 마이크로초마다 재계산되므로, 포화된 spine은 하나의 flowlet 내에 후보 집합에서 제외됩니다.

Lossless

Co-tuned with PFC & ECN

DLB는 RoCEv2 무손실 스택 (PFC, ECN/DCQCN, 헤드룸 계산)과 통합되므로, pause 프레임이 업스트림으로 전파되기 전에 flowlet 재바인딩이 이루어집니다.

텔레메트리

gNMI 내보내기

멤버별 rebind 횟수, flowlet-gap 분포, 멤버 품질 점수가 폐루프 fabric 튜닝을 위해 gNMI dial-out으로 스트리밍됩니다.

하드웨어

TH4 / TH5 네이티브

Broadcom Tomahawk 4(25.6T) 및 Tomahawk 5(51.2T) 스파인 플랫폼에서 64×400G 및 64×800G 포트 구성으로 검증되었으며, 소프트웨어 패스트패스 성능 저하가 없습니다.

상용 AI 패브릭에서 DLB가 제공하는 효과

활용도 향상. 업계에 공개된 flowlet 재조정 벤치마크에 따르면, 동일한 하드웨어에서 추가 uplink 구매 없이 패브릭 사용률이 static ECMP의 약 55%에서 90% 이상으로 향상됩니다.
테일 레이턴시 감소. 다른 링크가 유휴 상태로 있는 동안 어느 단일 링크도 포화되지 않으므로 P99.9 collective 완료 시간이 단축됩니다.
더 빠른 학습. 가장 느린 rank를 기다리며 GPU가 유휴 상태로 머무는 시간이 줄어들면, AllReduce 집약적 워크로드에서 측정 가능한 실제 처리 시간 개선이 나타납니다.
NIC 변경 불필요. DLB는 스위치 ASIC에서 동작합니다. 기존 RoCEv2 NIC와 xCCL (NCCL / RCCL / oneCCL) 컬렉티브 스택은 코드 변경 없이 올바른 순서로 전달받습니다.
하나의 라이선스. DLB는 OcNOS-DC PLUS SKU에 포함되어 있습니다: 같은 이미지, 같은 지원 계약, 기능별 추가 비용 없음.