晶圆级GPU优化MoE模型推理的关键技术解析
1. 晶圆级GPU架构与MoE模型推理挑战在当今AI计算领域混合专家模型(Mixture of Experts, MoE)已成为处理超大规模语言模型的主流架构选择。与传统稠密模型不同MoE模型通过动态激活少量专家子网络来处理不同输入在保持计算量相对恒定的同时大幅提升模型容量。然而这种架构特性也带来了独特的数据移动模式特别是在多芯片系统(Multi-Chiplet)中面临严峻的负载均衡和内存访问挑战。1.1 MoE模型的独特计算特征MoE模型的核心在于其稀疏激活特性。以典型的MoE层为例每个输入token仅路由到k个专家通常k2或4而专家总数可能达到256甚至更多。这种设计带来了三个关键特征计算局部性单个token的计算仅涉及少数专家理论上应具有较好的计算局部性数据移动复杂性专家间的权重分布和token路由导致不规则的数据访问模式负载动态性专家选择受输入内容影响显著难以静态预测在实际部署中这些特性会引发两个主要问题专家选择偏斜(Selection Skewness)少数热门专家被大量token选择而多数专家处于闲置状态内存访问不均衡远程内存访问(Remote HBM Access)成为性能瓶颈特别是在多芯片系统中1.2 晶圆级GPU的架构优势与挑战晶圆级GPU(Wafer-Scale GPU)通过先进封装技术将多个计算芯片(Die)集成在单一晶圆上提供远超传统多GPU系统的互连带宽和低延迟。以Tesla Dojo为例其5×5 2D Mesh架构可实现1.7TB/s的芯片间带宽。然而这种架构在运行MoE模型时面临特定挑战层次化内存访问每个计算芯片直接连接本地HBM访问延迟(300ns)显著低于远程HBM(500ns)通信拓扑感知Manhattan距离决定的跳数(Hop Count)直接影响数据传输延迟资源管理粒度需要细粒度的任务分配来应对专家选择的动态性图10(a)展示的基准架构中所有HBM被视作统一内存空间缺乏对数据局部性的优化导致大量不必要的芯片间通信。我们的测试显示在运行Qwen3-235B模型时远程DRAM访问占总访问量的78%成为主要性能瓶颈。2. 全局命令处理器与层次化任务分配2.1 全局-本地命令处理器架构为应对上述挑战我们设计了如图10(a)所示的增强型架构核心创新是两级的命令处理器(Command Processor)结构全局命令处理器(Global CP)维护专家分布表(Expert Distribution Table)记录每个专家初始分配的芯片ID收集跨token的热力图(Cross-token Heatmap)分析专家激活模式运行任务分配算法和预测器生成调度策略本地命令处理器(Local CP)接收Global CP下发的子任务和预测信息管理本地计算资源(SMs)的分配配置D2D控制器中的预测表(Prediction Table)这种分层设计实现了200ns的决策延迟相比主机CPU方案(5μs)有数量级提升。表II显示整个控制逻辑的面积开销仅0.04%功耗占比不到0.04%。2.2 数据驱动的任务分配算法算法1展示了我们的任务分配策略其核心思想是将MoE计算分解为各芯片的子任务考虑专家位置和选择频率。关键步骤如下候选芯片生成对每个专家创建包含其所在芯片及相邻芯片的候选列表def GenCandidateList(expert_id, dis1): local_die_list expert_die_map[expert_id] remote_die_list FindNearDies(local_die_list, dis) return local_die_list remote_die_list块粒度分配将请求划分为50个token的块基于成本模型选择最优芯片cost_model DRAM_access_cost compute_cost D2D_comm_cost target_die Argmin([cost_model(die) for die in candi_list])负载均衡动态更新各芯片负载确保不超过maxsplitnum限制图11(a)展示了该算法的执行效果专家4被分配到其所在的本地芯片(Die 1)而热门专家7则被分散到多个相邻芯片既减少了通信又平衡了负载。2.3 预测单元设计与工作流程预测单元(PDU)通过分析历史数据来预判未来可能访问的专家其核心数据结构包括cp_en位指示是否应在本地缓存该专家is_local位标记专家是否已缓存在本地HBM预测算法(图11(b))的工作流程从热力图中提取当前专家选择对应的行选择每行的top-n专家作为候选识别下一token可能使用的专家作为预测结果例如若当前芯片计算专家1和4预测结果可能建议缓存专家4因其可能在下一阶段被再次使用。这种预测准确率达到83%可减少45%的远程访问。3. 硬件支持的内存管理优化3.1 地址转换单元(ATU)设计ATU实现远程地址到本地地址的动态映射其关键特性包括4.25KB SRAM存储地址映射表68位宽条目支持全地址空间覆盖2-cycle延迟的并行查找逻辑当SM发起内存请求时ATU执行以下操作检查PDU预测表的is_local位若命中将远程地址转换为本地HBM地址重定向请求到本地内存控制器3.2 远程数据访问的数据流优化图10(a)中的蓝色和绿色箭头展示了优化后的数据流非复制数据读取(绿色路径)SM发起远程读取请求D2D控制器常规路由请求PDU检查预测表并决定是否复制如需复制写入LLC和本地HBM更新ATU本地化数据读取(蓝色路径)SM发起远程读取请求ATU将其转换为本地地址直接从本地HBM获取数据这种机制使得在运行DeepSeek-V3模型时本地DRAM读取占比从22%提升至68%显著降低延迟。4. 实现效果与性能分析4.1 吞吐量提升我们在两种晶圆配置上测试了方案效果(图12)Tesla Dojo5×5 2D Mesh25个芯片TSMC SoW8×3 2D Mesh24个芯片关键发现AlloPred策略在DeepSeek-V3上实现7.0倍吞吐提升矩形布局(TSMC)受益更大达到7.5倍加速小批量(4096)时与EP策略相当大批量(16384)时领先44%4.2 通信开销分析跳数减少比(Hop Reduction Ratio)是衡量通信优化的重要指标。如图12底部所示Pred Only降低4.5倍跳数对应3.0倍性能提升Allo Only降低142倍跳数带来6.3倍加速AlloPred组合降低213倍跳数最终加速比6.63倍这表明随着优化深入通信不再是唯一瓶颈负载均衡成为关键因素。4.3 内存访问分解图14展示了Qwen3模型在TSMC-SoW配置下的DRAM访问分布基准方案中远程读取占78%AlloPred方案将本地读取提升至58%远程写入增加(12%)反映预测驱动的数据复制5. 实际部署建议与调优技巧5.1 专家放置策略选择根据应用场景可选择两种专家初始放置策略(图16)重映射策略(Remap-based)保持每GPU专家数不变按专家热度重新分配位置适合内存受限场景复制策略(Dup-based)预留额外专家槽位复制热门专家到多个位置需要10-15%额外内存实测表明(图17)两种策略分别带来15.5%和12.5%的加速可根据系统资源灵活选择。5.2 关键参数调优预测表大小128B/芯片足够覆盖100层MoE热图缓存0.5MB可缓存单层全部专家选择模式分配块大小50-100 token平衡效率与准确性候选芯片范围dis1(相邻芯片)通常最优5.3 故障排查指南常见问题及解决方法预测准确率低检查热图更新频率增加历史记录长度调整top-n专家数量负载不均衡验证专家分布表一致性调整成本模型权重限制maxsplitnum参数地址转换失败检查ATU表项有效性验证PDU与ATU同步机制确保LLC预留足够空间6. 扩展应用与未来方向本方案的架构洞察可延伸至多个领域多GPU集群应用类似的专家感知任务分配CXL内存池化预测驱动的数据预取闪存分层存储专家权重的冷热分离特别地结合预填充(Prefill)阶段信息的专家放置策略(第VI章)已在实际系统验证为短请求场景提供12-15%的加速。未来可探索LLC预取策略与专家选择的关联性进一步降低内存延迟。