1. PIM架构与LLM推理的效能瓶颈突破在大型语言模型LLM推理任务中传统计算架构面临的核心矛盾在于模型参数规模呈指数级增长与内存带宽增长缓慢之间的不匹配。以GPT-3 175B模型为例仅参数加载就需要350GB内存空间而即使是高端GPU如NVIDIA A100其HBM2e内存带宽也仅2TB/s。这种差距导致系统性能严重受限于数据搬运而非实际计算。处理内存计算Processing-In-Memory, PIM技术通过将计算单元嵌入内存bank内部从根本上改变了数据流动范式。如图7(a)所示在传统PIM执行全连接层FC核时DRAM访问能耗占比高达86.7%而实际计算能耗仅占13.3%。这种能量分布揭示了传统架构的效率瓶颈——数据搬运消耗了绝大部分能量而非用于有效计算。关键发现当采用DRAM数据重用技术data reuse level64时单次DRAM访问的数据可复用64次计算使DRAM访问能耗占比降至33.1%图7b。这意味着通过智能数据复用理论上可获得约2.6倍的能效提升空间。2. DRAM数据重用机制深度解析2.1 数据重用的硬件实现基础在现代DRAM架构中每次行激活row activation会传输约8KB数据到行缓冲区。对于LLM中的矩阵运算特别是FC层的权重矩阵计算同一批权重参数往往需要与多个输入向量相乘。传统架构需要反复从DRAM读取相同权重而PIM架构通过在bank内部保留激活的行数据实现跨多次计算的参数复用。具体实现依赖三个关键技术Bank级计算单元每个DRAM bank集成浮点运算单元FPU支持本地数据直接计算行缓冲区扩展延长行缓冲区保持时间避免频繁预充电计算调度优化将计算密度高的操作集中调度到已激活的bank2.2 数据重用与并行计算的协同设计图7(c)揭示了数据重用级别与并行配置的权衡关系。实验测量了三种配置1P1B每bank 1个FPU2P1B每bank 2个FPU4P1B每bank 4个FPU当数据重用级别≥4时4P1B配置的功耗降至116W以下HBM3功率预算此时相比无重用情况可获得计算吞吐提升4倍于基础配置能效比提升2.8倍单位能量完成的计算量3. 异构PIM架构设计3.1 FC-PIM与Attn-PIM的差异化配置针对LLM中FC层和注意力层的不同特性我们采用异构PIM设计特性FC-PIM配置Attn-PIM配置计算强度高4P1B低1P2B数据重用率≥64≤4带宽需求中等权重稳定高KV缓存动态面积分配40% bank用于计算15% bank用于计算FC-PIM设计要点采用4P1B配置最大化计算并行度通过权重矩阵分块blocking实现bank间负载均衡支持混合精度计算FP16累加FP32输出Attn-PIM设计创新采用1P2B配置优化内存容量动态KV缓存管理机制支持稀疏注意力计算可跳过无效bank计算3.2 面积与功耗的协同优化在22nm工艺下关键面积参数为单个HBM bank面积0.83mm²单个FPU面积0.1025mm²最大HBM裸片面积121mm²通过公式推导4P1B配置的最大bank数量为m(0.1025×4 0.83) ≤ 121 → m ≤ 97实际采用96 banks3个bank groups的设计在满足面积约束的同时提供理论算力1.2TFLOPS 666MHz存储容量12GBFC-PIM/16GBAttn-PIM4. 系统集成与数据调度4.1 层次化互连架构如图5(a)所示系统采用三级互连NVLink级连接FC-PIM与主机处理器带宽900GB/sPCIe/CXL级连接Attn-PIM设备支持≤4096设备扩展NoC级bank间网状网络延迟10ns4.2 数据分区策略注意力层按attention head分区K^T矩阵伪通道级列分割 bank级行分割V矩阵伪通道级行分割 bank级列分割FC层权重矩阵分块block size256×256输入向量广播通过bank间快速通道5. 实测性能与优化效果5.1 端到端性能对比在LLaMA-65B模型上的测试结果显示batch size64, spec length4系统相对性能能效比A100AttAcc1.0×1.0×PAPI本设计1.8×3.4×AttAcc-only0.16×0.9×关键优势体现在动态负载均衡FC层任务在GPU与PIM间智能分配流水线优化计算与通信重叠率达73%5.2 敏感度分析图10展示不同并行配置下的性能变化批量大小RLP从4增加到128时PAPI保持1.5-1.8×优势推测长度TLP从1增加到8时AttAcc-only性能下降40%而PAPI仅降12%6. 工程实现中的关键挑战6.1 热管理策略在4P1B配置下实测bank局部热点可达85°C。我们采用动态频率调节666MHz→500MHz75°C计算负载轮转bank级负载均衡硅中介层热扩散设计6.2 可靠性保障针对DRAM计算引入的可靠性问题错误检测每128次计算插入1次校验操作银行隔离故障bank可软件屏蔽误差补偿输出层添加轻量级校准网络7. 前沿扩展支持MoE架构对于混合专家模型Mixture of ExpertsPAPI架构展现出独特优势稀疏计算只有激活的expert权重需要加载动态分配专家权重可分布在不同bank能效优化非活跃FPU可时钟门控实测在Switch Transformer模型上PAPI可实现专家激活延迟50ns稀疏计算能效28TOPS/W这种设计使得PAPI不仅能适应当前密集LLM也为未来稀疏化模型提供了硬件基础。通过将计算范式从数据搬运转变为计算移动PIM架构正在重塑LLM推理的硬件格局。