Dynamic Load Balancing: AI Fabric를 위한 Adaptive Routing
정적 해시 ECMP은 GPU collective가 아니라 north-south 웹 트래픽을 위해 만들어졌습니다. OcNOS Dynamic Load Balancing(DLB)은 1밀리초 미만 간격으로 flowlet을 덜 혼잡한 경로에 재배치하여, 분산 학습 워크로드에서 Ethernet과 InfiniBand 간의 격차를 좁힙니다.
Leaf-Spine 패브릭에서의 Adaptive Routing
GPU AllReduce 트래픽을 전달하는 4-spine, 2-leaf 슬라이스. DLB는 로컬 egress queue 깊이를 실시간으로 측정합니다. Spine-3이 포화되면 leaf는 다음 flowlet을 Spine-2로 재배치하여 4개 uplink 모두의 균형을 유지합니다.
AI 패브릭에서 정적 ECMP가 실패하는 이유
표준 ECMP은 플로우 시작 시점에 5-tuple을 해싱하여 송신 포트를 선택하고, 해당 플로우의 전체 수명 동안 그 포트에 고정합니다. 수백만 개의 단기 플로우로 구성된 north-south 웹 트래픽에서는 대수의 법칙에 따라 경로 전반의 사용률이 고르게 평준화됩니다. 반면 AI fabric에서는 소수의 elephant flow GPU 집합 통신(AllReduce, AllGather, All-to-All)에서 발생하며, 각각이 한 번에 수 초 동안 400G 또는 800G 업링크 전체를 소모합니다. 동일한 업링크에 해싱된 두 개의 elephant flow는 해당 작업이 지속되는 동안 충돌하는 반면, 다른 업링크는 유휴 상태로 남습니다.
그 결과는 hash polarisation입니다: 측정된 fabric 활용률이 약 50~60%로 무작위 핫스팟이 발생하고, 전체 학습 작업을 멈추게 하는 tail-latency 이상치가 나타납니다. DLB는 ASIC의 실시간 egress 큐 깊이와 포트 활용률 텔레메트리를 사용하여, 작은 패킷 간 간격으로 구분되는 sub-flow 청크인 모든 flowlet마다 경로 결정을 재평가함으로써 이 격차를 해소합니다.
OcNOS DLB 구현
밀리초 미만 갭 타이머
ASIC 네이티브 flowlet 비활성 타이머(일반적으로 16~256 µs)는 긴 elephant 플로우를 청크로 분할하여 TCP/RoCEv2 재정렬 없이 여러 경로에 안전하게 분산시킵니다.
실시간 큐 깊이 피드백
DLB는 Tomahawk 파이프라인으로부터 이그레스 포트별 큐 점유율 및 링크 사용률 신호를 받아, 모든 ECMP 넥스트홉을 실시간으로 점수화합니다.
적응형 next-hop 선택
flowlet 경계에서 가장 품질이 높은 member가 선택됩니다. member 품질은 수 마이크로초마다 재계산되므로, 포화된 spine은 하나의 flowlet 내에 후보 집합에서 제외됩니다.
Co-tuned with PFC & ECN
DLB는 RoCEv2 무손실 스택 (PFC, ECN/DCQCN, 헤드룸 계산)과 통합되므로, pause 프레임이 업스트림으로 전파되기 전에 flowlet 재바인딩이 이루어집니다.
gNMI 내보내기
멤버별 rebind 횟수, flowlet-gap 분포, 멤버 품질 점수가 폐루프 fabric 튜닝을 위해 gNMI dial-out으로 스트리밍됩니다.
TH4 / TH5 네이티브
Broadcom Tomahawk 4(25.6T) 및 Tomahawk 5(51.2T) 스파인 플랫폼에서 64×400G 및 64×800G 포트 구성으로 검증되었으며, 소프트웨어 패스트패스 성능 저하가 없습니다.
상용 AI 패브릭에서 DLB가 제공하는 효과
- 활용도 향상. 업계에 공개된 flowlet 재조정 벤치마크에 따르면, 동일한 하드웨어에서 추가 uplink 구매 없이 패브릭 사용률이 static ECMP의 약 55%에서 90% 이상으로 향상됩니다.
- 테일 레이턴시 감소. 다른 링크가 유휴 상태로 있는 동안 어느 단일 링크도 포화되지 않으므로 P99.9 collective 완료 시간이 단축됩니다.
- 더 빠른 학습. 가장 느린 rank를 기다리며 GPU가 유휴 상태로 머무는 시간이 줄어들면, AllReduce 집약적 워크로드에서 측정 가능한 실제 처리 시간 개선이 나타납니다.
- NIC 변경 불필요. DLB는 스위치 ASIC에서 동작합니다. 기존 RoCEv2 NIC와 xCCL (NCCL / RCCL / oneCCL) 컬렉티브 스택은 코드 변경 없이 올바른 순서로 전달받습니다.
- 하나의 라이선스. DLB는 OcNOS-DC PLUS SKU에 포함되어 있습니다: 같은 이미지, 같은 지원 계약, 기능별 추가 비용 없음.
GPU 패브릭에 맞춰 DLB를 튜닝 중이신가요? 네트워크 아키텍트와 상담하십시오.
기술 데모 요청하기 →Go deeper. Take it with you.
Two short, technical downloads that go further than this page: the lossless 800G AI fabric architecture and the EVPN-VXLAN data center reference.
OcNOS 800G Lossless AI Fabric
Non-blocking RoCEv2 fabric on Broadcom Tomahawk 4/5 spines: SKU tiers, validated platforms, and deployment architecture.
브리프 받기EVPN-VXLAN 데이터센터 패브릭
Carrier-grade leaf-spine data center fabric: symmetric IRB, Type-2/Type-5 routes, and distributed anycast gateway.
브리프 받기OcNOS 800G Lossless AI Fabric
Quick form. Your PDF opens in a new tab immediately after submit.
✓ Opening your PDF in a new tab…
If it didn't open, use the link below.
Solution_Brief-OcNOS_800G_Ethernet-Based_Lossless_AI_Fabric.pdfEVPN-VXLAN 데이터센터 패브릭
Quick form. Your PDF opens in a new tab immediately after submit.
✓ Opening your PDF in a new tab…
If it didn't open, use the link below.
OcNOS-modernize-your-data-center-EVPN-VxLAN_Solution-Brief.pdf