BCM56996 · TSMC 7 nm · Buffer profundo HBM en el paquete

Broadcom Tomahawk 4 Switch Tomahawk 4 25,6 Tbps · 64 × 400G · la generación 400G de búfer profundo.

Una plataforma abierta validada en OcNOS-DC: Edgecore AS9736-64D. La variante de buffer profundo HBM de Tomahawk 4: el silicio para fabrics de IA de 400G donde el margen de buffer importa más que el recuento de puertos de 800G, y para roles de DCI/agregación donde las ráfagas son profundas.

25.6Tbps
Capacidad del switch
64×400G
Radix de puertos nativo
~70GB
Búfer profundo HBM
7nm
Proceso TSMC N7
50GPAM4
SerDes por carril
01
El switch
Hardware abierto que ejecuta Tomahawk 4

Una plataforma. Un único propósito: 400G de deep-buffer.

Edgecore AS9736-64D: un switch 2RU 64×400G QSFP-DD basado en el Tomahawk 4 BCM56996 deep-buffer. ONIE precargado, ejecuta la misma imagen OcNOS-DC que los spines TH5 y los leaves TD4. Una plataforma validada, un nicho arquitectónico que el resto del portafolio no cubre.

Edgecore· familia de plataformas DCS520
Fabric de IA 400G de búfer profundo · DCI

AS9736-64D

Validado en OcNOS-DC · ONIE precargado
Ports
64 × QSFP-DD (400G)Breakout: 2×200 / 4×100 / 8×50 (hasta 256 puertos lógicos)
Form
2RU · 21.5 kg
Power
~2100 W típico · AC redundante de intercambio en caliente~33 W por jaula QSFP-DD
CPU
Intel Xeon clase D · 4 GB de RAM
▌ Elija esto cuando

Fabric de IA de 400G para clústeres GPU de un solo pod donde el buffer profundo importa más que los puertos de 800G, y para roles de agregación / DCI de 400G donde la HBM absorbe las ráfagas que los switches con menor buffer descartan.

Usted está aquí · 25.6 Tbps

Tomahawk 4: 64 × 400G

Elíjalo cuando los NIC de 400G anclen el clúster, cuando el margen de deep-buffer figure en la lista de requisitos, o cuando el equipo deba absorber ráfagas de DCI/agregación que un chip con menos buffer descartaría.

Escale · 51.2 Tbps

Tomahawk 5: 64 × 800G

Elija esta opción cuando el clúster necesite puertos de 800G de forma nativa, o cuando 800G por puerto con el mismo radix de 64 puertos justifique el sobreprecio por puerto. Página de Tomahawk 5 →

Caja más pequeña · 12.8 Tbps

Trident 4: DC leaf

Elíjalo cuando el rol sea leaf de DC a 100G/400G con un envolvente de capacidad menor. Familia de chip distinta, la misma imagen OcNOS-DC, mucho más económico por puerto. (Próximamente la página de Trident 4.)

02
Dentro del silicio
Lo que le aporta un buffer profundo respaldado por HBM

Tomahawk 4, y la variante que incorporó HBM en el paquete.

Tomahawk 4 estándar (BCM56990) es un switch de 25,6 Tbps con búfer compartido en el chip en el rango de unos pocos cientos de megabytes: la misma clase que TH3 y TH5. La variante HBM, BCM56996, el chip del AS9736-64D, añade memoria de alto ancho de banda en el paquete como un pool de extensión de búfer profundo. Aproximadamente 70 GB de búfer conectada con ancho de banda HBM, direccionable por el mismo pipeline de reenvío.

Por qué esto importa: RoCEv2 sin pérdidas normalmente depende de PFC (priority flow control) para propagar la contrapresión aguas arriba cuando una cola se llena. Con el margen de HBM, las microrráfagas transitorias de AllReduce y la congestión de flujos largos de DCI se absorben en el pool profundo en lugar de desencadenar tormentas de pausas. PFC sigue activándose, pero lo hace con mucha menos frecuencia, y cuando ocurre, los ciclos de deadlock tienen tiempo de resolverse antes de que el watchdog los drene.

Especificaciones verificadas con las de Broadcom Página de producto del BCM56990/56996 y la matriz de funciones de OcNOS en vivo.

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM RoutingCognitivo · DLB ShippingDesde 2020

· Cómo se ve 64 × 400G

Chip BCM5699625,6 Tbps
+ On-package HBM~70 GB de buffer profundo
512 carriles × 50G PAM4 = 25,6 Tbps. Ocho carriles por jaula → 400G. La extensión del búfer es el diferenciador.
Cuatro decisiones de diseño que importan

Por qué el TH4 sigue presente en la conversación sobre AI fabric incluso tras el lanzamiento del TH5.

Tres de estas cuatro opciones se comparten con TH3 y TH5. La extensión HBM es la que hace única a la variante BCM56996.

PRINCIPLE 02

SerDes 50G PAM4: 512 carriles.

El mismo número de carriles que el TH3 (50G NRZ) y el TH5 (100G PAM4). El TH4 se sitúa en la generación intermedia. Ocho carriles por jaula QSFP-DD ofrecen 400G nativos; el breakout se extiende a 200G/100G/50G para despliegues de velocidad mixta.

512 carriles · 50G PAM4
PRINCIPLE 03

Enrutamiento adaptativo por hardware.

Broadcom Cognitive Routing: balanceo de carga consciente de flowlets en el ASIC, sin viaje de ida y vuelta al controlador. OcNOS-DC lo activa como DLB Reactive-Path Rebalance. Con el margen de HBM, el rebinding ante colisiones de hash y la absorción de ráfagas funcionan en conjunto.

DLB · reasignación de flowlets
PRINCIPLE 04

Silicio maduro de 7 nm.

En envíos de gran volumen desde 2020: más de cuatro años de correcciones de errores, comportamiento predecible y una envolvente térmica conocida. Para la renovación brownfield de una fabric TH3, esta es la opción aburrida y predecible.

TSMC N7 · más de 4 años de envíos
03
Salto generacional
Tomahawk 3 → Tomahawk 4

La capacidad se duplicó. El proceso se redujo. Apareció la HBM.

El TH3 (12,8 Tbps · 32×400G · 16 nm · 25G NRZ) fue el caballo de batalla de la era previa a la fabric de IA. El TH4 duplicó la hoja de especificaciones, y la variante BCM56996 añadió el giro arquitectónico que sigue siendo su factor diferenciador.

Capacidad de conmutación
12,8 Tbps 25,6 Tbps

El doble en el mismo espacio de rack. 2RU se mantuvo en 2RU.

Radix de puertos nativo
32 × 400G 64 × 400G

El doble de puertos a la misma velocidad: encaja en diseños Clos sin un nivel adicional.

Nodo de proceso
16 nm 7 nm

Reducción en dos pasos. Margen de potencia por puerto para ópticas de 400G sin refrigeración activa por puerto.

SerDes por carril
25G NRZ 50G PAM4

Las mismas 512 lanes, el doble de velocidad por lane. La duplicación provino de la infraestructura existente.

El siguiente salto: TH5 vuelve a duplicarse hasta 51,2 Tbps y 64 × 800G con SerDes 100G PAM4, pero TH5 regresó al shared-buffer estándar, dejando el deep buffer HBM de TH4G como una función de una sola generación. Página de Tomahawk 5 →
04
Qué incluye OcNOS-DC
OcNOS-DC en este silicio

La misma imagen que el spine TH5. Perfiles de búfer conscientes de HBM.

OcNOS-DC se ejecuta de forma idéntica en plataformas TH3, TH4 y TH5. En TH4 hace una cosa extra: mapea los perfiles DCQCN de los colectivos xCCL (NCCL / RCCL / oneCCL) sobre el pool de extensión HBM, de modo que RoCEv2 sin pérdidas atraviesa los bursts que un fabric sin deep-buffer tendría que gestionar mediante pausas PFC.

RoCEv2 sin pérdidas · respaldado por HBM

PFC + ECN preajustados para xCCL, y el pool profundo absorbe el resto.

Configuración estándar de PFC + ETS + Dynamic ECN, más perfiles de búfer conscientes de la HBM. La mayoría de las microrráfagas de AllReduce nunca alcanzan el umbral de PFC porque el margen de la HBM las absorbe. La latencia de cola se mantiene acotada bajo el tráfico sincronizado de muchos a uno que tumba a los fabrics de búfer poco profundo.

Enrutamiento adaptativo

DLB revincula los flowlets en el ASIC.

El Cognitive Routing en TH4 ejecuta el mismo DLB Reactive-Path Rebalance que OcNOS-DC ofrece en TH5. La combinación, el headroom de HBM más la revinculación de flowlets, gestiona la colisión de hash de ECMP y la absorción de ráfagas en el mismo paso de reenvío.

Watchdog de bloqueo PFC

Per-port, per-priority. Auto-drain.

Detecta ciclos de cola en pausa antes de que bloqueen los trabajos de entrenamiento. Con la holgura de HBM muchos bloqueos mutuos potenciales nunca se forman, pero el watchdog igualmente queda armado.

Telemetría en streaming

Ocupación de HBM en el cable.

gNMI on-change para la profundidad del búfer (en el chip and extensión de HBM), marcas ECN, conteos de pausa PFC. Visibilidad del deep pool, no una caja negra.

Red real

BGP · OSPF · IS-IS · EVPN-VXLAN.

Stack completo de Layer 3 de nivel operador sobre el mismo silicio. El spine TH4 también es un router real: opérelo como el resto de su red, no como una caja negra.

Superficie de funciones validada

La misma imagen de OcNOS-DC que el TH5: cada función se activa allí donde el silicio lo permite.

Enrutamiento de Layer 3 · L1/L2 · primitivas de fabric de IA/ML · Multicast · QoS · Seguridad · Hardware · Gestión. La validación por plataforma es visible en la matriz pública.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP Telemetría HBM
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

Ponga en marcha el AS9736-64D en el rack con aprovisionamiento sin intervención (zero-touch). Transmita cada contador, incluida la ocupación de la HBM, a su stack de observabilidad. Ajuste cada umbral mediante configuración modelada en YANG. Sin scripts de adhesión.

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Proveedor de Terraform
Quién construye este stack

Tres perfiles de operador. Un solo silicio para los tres.

La combinación 64×400G + HBM coloca al AS9736-64D en tres conversaciones distintas: AI fabric, DCI y renovación de brownfield. El mismo conmutador, un encuadre distinto de la misma cuestión arquitectónica.

AI Cluster Operator · pod de NIC de 400G

Fabric de NIC de 400G sin pagar por silicio de 800G.

"Nuestro clúster usa NICs de 400G. Aún no necesitamos puertos de 800G, pero sí necesitamos el buffer profundo. AllReduce en fabrics de buffer reducido no deja de activar PFC."

Spines TH4 sobre AS9736-64D, RoCEv2 con DCQCN ajustado a xCCL, perfiles de buffer optimizados para HBM, rebinding DLB sub-milisegundo. Clos de tres niveles para scale-out multi-pod, la misma imagen OcNOS-DC que el despliegue TH5 contiguo.

DC · Deep-Buffer Spine
DCI · Arquitecto de agregación profunda

Congestión de flujos largos sin perder paquetes.

"Nuestro equipo de DCI tiene que absorber ráfagas de flujos TCP entre centros de datos que duran minutos. Los switches estándar descartan. Los routers de chasis cuestan diez veces lo que esto debería costar."

Pool de extensión HBM de ~70 GB dimensionado para la absorción de ráfagas de flujos largos. EVPN-VXLAN inter-DC, pila L3 completa, telemetría gNMI por inquilino. Hardware abierto con la economía del silicio merchant.

DC · DCI · Agregación
Brownfield · Renovación TH3

El doble de capacidad, el mismo modelo operativo.

"Tenemos un fabric TH3 en producción. Necesitamos más capacidad, pero no queremos rediseñar la capa del NOS ni volver a capacitar al equipo de red."

La misma imagen OcNOS-DC se ejecuta en TH3 y TH4. La renovación brownfield mantiene intactas las configuraciones, la automatización y las canalizaciones gNMI. La capacidad se duplica. El modelo operativo permanece.

DC · Renovación
Preguntas frecuentes

Las preguntas que los arquitectos realmente hacen.

Una plataforma: la Edgecore AS9736-64D, un switch de 2RU 64×400G QSFP-DD construido sobre el Broadcom BCM56996 (Tomahawk 4 con búfer profundo HBM en el paquete). Se entrega precargado con ONIE y ejecuta la misma imagen de OcNOS-DC que los spines TH5 y los leaves TD4. El conjunto de plataformas validadas es un solo switch, pero es el switch 400G de búfer profundo del portafolio de OcNOS.
Dos razones. Primero, el BCM56996 tiene búfer profundo HBM en el paquete. TH5 volvió a una arquitectura estándar de búfer compartido. Para roles de agregación y DCI de 400G donde los flujos se encolan en profundidad, TH4 absorbe ráfagas que un TH5 (o TH3) descarta. En segundo lugar, a escala de un solo pod en NIC de 400G, un fabric TH4 es más económico por puerto que TH5 sin compromiso arquitectónico: un Clos de tres niveles sigue encajando, y la superficie de funciones de OcNOS-DC es idéntica.
La HBM en el paquete amplía el búfer de paquetes efectivo del chip de unos cientos de megabytes a aproximadamente 70 GB. En un fabric de IA: las microrráfagas de AllReduce pueden absorberse en la HBM en lugar de provocar tail-drop o tormentas de pausa PFC. En un rol de DCI/agregación: los flujos TCP de larga duración sobreviven a la congestión transitoria sin retransmisiones. Esto cambia el planteamiento de sin pérdidas, pasando de "PFC + ECN + ajuste cuidadoso" to "PFC + ECN + headroom que oculta la mayoría de los modos de falla."
Elija TH5 (AIS800-64D) cuando los puertos 800G están en la BoM, o cuando desea 800G por puerto con el mismo radix de 64 puertos (reduce a la mitad el cableado spine-leaf para el mismo ancho de banda agregado). Elija TH4 (AS9736-64D) cuando las NIC de 400G son el ancla del clúster, cuando el buffer profundo es la decisión arquitectónica (DCI, agregación profunda, fabrics de flujos mixtos), o cuando el presupuesto por puerto descarta el silicio de 800G. Ambos ejecutan la misma imagen de OcNOS-DC. Combinarlos en un fabric multinivel es un despliegue soportado.
Sí. TH4 tiene las mismas primitivas de Cognitive Routing que TH5: balanceo de carga consciente de flowlets en el ASIC, sin viaje de ida y vuelta al controlador. OcNOS-DC lo activa como DLB Reactive-Path Rebalance. Combinado con el búfer profundo de HBM, un fabric TH4 resuelve las colisiones de hash de flujos elefante and rides through the resulting transient queue depth without dropping. PFC deadlock detection & recovery, DCQCN, and ETS are all available.
La capacidad se duplicó dos veces (12.8 → 25.6 → 51.2 Tbps). El proceso se redujo dos veces (16 → 7 → 5 nm). El SerDes por carril se duplicó dos veces (25G NRZ → 50G PAM4 → 100G PAM4). El número de carriles se mantuvo en 512 en toda la familia. Arquitectura de búfer: TH3 con compartición estándar, TH4 añadió HBM (solo en la variante BCM56996), TH5 regresó a la compartición estándar. OcNOS-DC admite los tres con la misma imagen: la actualización de un entorno existente mantiene intactas las configuraciones y las canalizaciones de gNMI.
El radix de 64×400G es excesivo para el borde SP de menos de 1 Tbps o para el gateway del sitio de celda: para esos casos, elija Qumran (Q2C, Q2C+) o Qumran 2A/2U. Para un leaf de DC puro a 100G/25G también es la forma equivocada: elija Trident 4 (TD4) a 12,8 Tbps. Y si el clúster realmente necesita puertos de 800G hoy, el TH4 obliga a añadir una capa Clos adicional, así que elija TH5. El punto óptimo del TH4 es: "400G es suficiente y se requiere un búfer profundo".

¿Diseña un fabric 400G de búfer profundo? Dimensionémoslo juntos.

Sesión de arquitectura de 30 minutos con un arquitecto de red OcNOS. Traiga su cantidad de GPU, la velocidad de las NIC y sus expectativas de patrón de ráfagas, y váyase con una BoM dimensionada en torno al AS9736-64D y un plan de ubicación frente a las alternativas TH5 / TD4.