Azure Local解决方案之RoCE(v2)网络交换机部署
Azure Local或Windows Server 2025 HCI解决方案中如何部署TOR网络交换机下面的实例以DELL S5232F-ON以及服务器网卡为Mellanox CX5/6 25GB网卡为例。下文端口规划可根据实际节点数量与客户建议自行调整一、S5232F-ON 的端口布局规划端口范围角色物理接口类型备注1/1/1 – 1/1/16节点下行16 个 SFP2825G/10GNodeDCB / NodeManagement / Storage 都在这一段1/1/17 – 1/1/30备用文档未指定SFP28默认进 vlan 2 关闭1/1/31 – 1/1/32VLTi2 个 QSFP28100G实际部署时常用 100G DAC/光模块直连1/1/33 – 1/1/34CUSTOMER.UPLINKPo10 LACP2 个 QSFP28100G→ 100G 上行这就是 S5232F-ON 的杀手锏mgmt1/1/1OOB 管理1G RJ45S5232F-ON 是 16 口 25G 下行 2×100G 上行 2×100G VLTi 的设计——上行和 VLTi 全部 100G。二、底层 QoS/PFC/ETS 配置所有基于 RoCE RDMA的TOR 交换机都要使用以下命令trust dot1p-map trust_map qos-group 0 dot1p 0-2,4,6-7 ! 管理 / TCP 普通流量 qos-group 3 dot1p 3 ! SMB Direct (RDMA) ← 唯一受 PFC 保护 qos-group 5 dot1p 5 ! 心跳 qos-map traffic-class queue-map queue 0 qos-group 0-2,4,6-7 queue 3 qos-group 3 queue 5 qos-group 5 policy-map type queuing ets-policy class Q0 bandwidth percent 48 class Q3 bandwidth percent 50 ! RDMA 50% class Q5 bandwidth percent 2 ! 心跳 2% policy-map type network-qos pfc-policy class SmbStorage pause pfc-cos 3 ! 只有 COS3 无损 dcbx enable三、融合场景Converged管理 计算 RDMA 存储共用一对 TOR 的 1/1/1–16 全部 16 个 25G 口。拓扑┌───────────────────────────────────────────┐ │ TOR1 S5232F-ON │ │ │ │ 1/1/1 ─── Node1 (25G) │ │ 1/1/2 ─── Node2 (25G) │ │ 1/1/3 ─── Node3 (25G) │ │ 1/1/4 ─── Node4 (25G) │ │ 1/1/5 ─── Node5 (25G) │ │ 1/1/6 ─── Node6 (25G) │ │ 1/1/7 ─── Node7 (25G) │ │ 1/1/8 ─── Node8 (25G) │ │ 1/1/9 ─── Node9 (25G) │ │ 1/1/10 ─── Node10 (25G) │ │ 1/1/11 ─── Node11 (25G) │ │ 1/1/12 ─── Node12 (25G) │ │ 1/1/13 ─── Node13 (25G) │ │ 1/1/14 ─── Node14 (25G) │ │ 1/1/15 ─── Node15 (25G) │ │ 1/1/16 ─── Node16 (25G) │ │ │ │ 1/1/31 ───┐ │ │ 1/1/32 ───┴─ VLTi (2×100G) │ │ 1/1/33 ───┐ │ │ 1/1/34 ───┴─ Uplink (2×100G → Spine) │ │ │ │ mgmt1/1/1 ─── OOB 192.168.255.1/30 │ └───────────────────────────────────────────┘ ║ 2×100G VLTi ║ 2×100G Uplink ║ ┌──────────────────────────────────────────┐ │ TOR2 S5232F-ON │ │ (同样 16 口下行到 Node1–8 │ │ 镜像到 TOR1 形成 VLT pair) │ └──────────────────────────────────────────┘ │ └──→ Spine (上联)关键配置两台 TOR 一样节点下行口1/1/1–16——全 DCBinterface range ethernet1/1/1-1/1/16 description NodeDCB ! 16 口统一命名 NodeDCB switchport mode trunk switchport trunk allowed vlan 200,301,302 mtu 9216 flowcontrol receive off flowcontrol transmit off priority-flow-control mode on service-policy input type network-qos pfc-policy service-policy output type queuing ets-policy ets mode on qos-map traffic-class queue-map spanning-tree bpduguard enable spanning-tree port type edgeVLTi1/1/31–32—— 100G 全双工是瓶颈分散点interface range ethernet1/1/31-1/1/32 description VLTiLink mtu 9216 flowcontrol receive off flowcontrol transmit off priority-flow-control mode on ! 100G 也要 PFC因为两台 TOR 之间 service-policy input type network-qos pfc-policy service-policy output type queuing ets-policy ets mode on qos-map traffic-class queue-map no shutdown no switchport上行 Po101/1/33–34—— 100G LACPinterface port-channel10 description DataCenterUplink switchport mode trunk switchport trunk allowed vlan 200 vlt-port-channel 10 interface range ethernet1/1/33-1/1/34 description CUSTOMER.UPLINK channel-group 10 mode active no switchport flowcontrol receive on ! 上行只接收 pause不发送 flowcontrol transmit off ! 防止冻住下游融合场景的逻辑和 S5112F-ON 一致规模 ×2每节点占 1个 25G 口统一配置Trunk。管理 RDMA 全部走同一根线靠 PFC/ETS 隔离。如果核心交换机有条件上行 2×100GTOR→Spine 的带宽不再可能是瓶颈。VLTi 2×100G——双 100G 互连允许每台 TOR 在 100G 量级跨过对端 TOR。四、非融合场景Non-converged管理/心跳和RDMA 存储走 S5232F-ON不同的下行口16 口对半开。拓扑┌───────────────────────────────────────────┐ │ TOR1 S5232F-ON │ │ │ │ 1/1/1 ─── Node1-Mgmt1 (25G) TCP only │ │ 1/1/2 ─── Node2-Mgmt2 (25G) TCP only │ │ 1/1/3 ─── Node3-Mgmt1 (25G) TCP only │ │ 1/1/4 ─── Node4-Mgmt2 (25G) TCP only │ │ 1/1/5 ─── Node5-Mgmt1 (25G) TCP only │ │ 1/1/6 ─── Node6-Mgmt2 (25G) TCP only │ │ 1/1/7 ─── Node7-Mgmt1 (25G) TCP only │ │ 1/1/8 ─── Node8-Mgmt2 (25G) TCP only │ │ │ │ 1/1/9 ─── Node1-RDMA1 (25G) PFCETS │ │ 1/1/10 ─── Node2-RDMA2 (25G) PFCETS │ │ 1/1/11 ─── Node3-RDMA1 (25G) PFCETS │ │ 1/1/12 ─── Node4-RDMA2 (25G) PFCETS │ │ 1/1/13 ─── Node5-RDMA1 (25G) PFCETS │ │ 1/1/14 ─── Node6-RDMA2 (25G) PFCETS │ │ 1/1/15 ─── Node7-RDMA1 (25G) PFCETS │ │ 1/1/16 ─── Node8-RDMA2 (25G) PFCETS │ │ │ │ 1/1/31 ───┐ │ │ 1/1/32 ───┴─ VLTi (2×100G) │ │ 1/1/33 ───┐ │ │ 1/1/34 ───┴─ Uplink (2×100G → Spine) │ └───────────────────────────────────────────┘ ║ 2×100G VLTi ║ 2×100G Uplink ║ ┌──────────────────────────────────────────┐ │ TOR2 S5232F-ON │ │ (同样 1/1/1–8 → Node1–4 Mgmt, │ │ 1/1/9–16 → Node1–4 RDMA, │ │ 镜像 VLT pair) │ └──────────────────────────────────────────┘关键配置A 段管理/心跳下行口1/1/1–8——只用全局 pause不上 PFCinterface range ethernet1/1/1-1/1/8 description NodeManagement switchport mode trunk switchport trunk allowed vlan 200 ! 只放行管理 VLAN mtu 9216 flowcontrol receive on ! ★ 全局 pause不用 PFC flowcontrol transmit off spanning-tree bpduguard enable spanning-tree port type edgeB 段存储下行口1/1/9–16——全 DCBPFCETSDCBXinterface range ethernet1/1/9-1/1/16 description Storage switchport mode trunk switchport trunk allowed vlan 301,302 ! ★ 只放行存储 VLAN mtu 9216 flowcontrol receive off flowcontrol transmit off priority-flow-control mode on service-policy input type network-qos pfc-policy service-policy output type queuing ets-policy ets mode on qos-map traffic-class queue-map spanning-tree bpduguard enable spanning-tree port type edgeVLTi 和 Uplink 配置与融合场景完全相同。非融合场景的逻辑8 个管理口1/1/1–88 个存储口1/1/9–16每节点用 1 个 Mgmt 1 个 Storage 口。VLAN 物理隔离管理 VLAN 200 不会进 1/1/9–16存储 VLAN 301/302 不会进 1/1/1–8——比融合场景靠 PFC 隔离更彻底。故障域更小管理口就算有 bug / 风暴RDMA 队列完全不受波及。五、融合 vs 非融合 对照表维度融合 Converged非融合 Non-converged下行 25G 节点口1/1/1–16 全是 NodeDCB16 口1/1/1–8 NodeManagement8 口 1/1/9–16 Storage8 口节点数168管理 8 存储 8VLAN200/301/302 同时跑 16 口200 只进 1/1/1–8301/302 只进 1/1/9–16Flow Control节点口全 PFCPFC 必备管理口flowcontrol receive on全局 pause存储口 PFC onPFC/ETS16 口全开只在 8 个存储口开VLTi 链路2×100G1/1/31–322×100G1/1/31–32Uplink 链路2×100G1/1/33–342×100G1/1/33–34每节点最少网卡2×25G分别接2台TOR4×25Gmgmt RDMA 物理分开接2台TOR故障隔离软隔离靠 PFC/ETS硬隔离VLAN 物理口双隔离六、几个 S5232F-ON 专属的注意点VLTi 现在是 100G × 2。S5112F-ON 上 2×25G VLTi 很容易被 RDMA 流量打满8 节点 × 25G 单向就能吃掉 25G但 S5232F-ON 上2×100G VLTi在 16 节点融合部署下也不会成为瓶颈——S5232F-ON 真正是为大规模 HCI 设计的。上行 2×100G也是同理。融合场景下 16 节点 × 双向 25G RDMA 理论 400G 流量不可能全打满但峰值能到 200G2×100G 200G 正好顶上。1/1/17–1/1/30 留空。文档 Table 17/18 没有指定这些口。S5232F-ON 的 QSFP28 口是 100G 模式虽然也可以拆 breakout但文档样例直接用 100G 模块——经济性和带宽都更优。非融合的管理口和存储口是同一型号交换机上的不同下行口节点侧仍然要插两张 25G 网卡Mellanox ConnectX-5/6 板载 25G。DCBX 仍然要 enable。无论融合还是非融合Mellanox CX5/CX6 网卡在节点侧要通过 DCBX 拿到对端的 PFC/ETS 参数。如果网卡 DCBX 是willing或disabled整个 RDMA 链路会变成软无损掉一两个包 SMB 性能就跌。七、一句话总结S5232F-ON 16 口 25G 下行 2×100G VLTi 2×100G 上行。融合场景把 16 个 25G 全开 DCBPFCETS非融合场景对半开8 口走全局 pause 跑管理、8 口走 PFC 跑 RDMA。所有型号共用同一套 trust-map / ETS 比例 / pfc-cos 3 / DCBX 底层配置——这份文档妙就妙在把做事的策略48/50/2、COS3 无损和硬件的拓扑哪些口给谁用解耦了换型号只需要改 Table 8/11/14/17 那段端口范围剩下照搬。