生物记忆启发的混合存内计算架构:电容与SHE-MTJ实现硬件级学习与巩固
1. 项目概述当存内计算遇见生物记忆在芯片设计的领域里我们一直在和两个“老大难”问题作斗争内存墙和功耗墙。传统的冯·诺依曼架构把计算和存储分开处理器和内存之间那条数据搬运的“高速公路”越来越堵能耗也越来越高尤其是在处理神经网络这种海量乘累加运算时大部分能量和时间都花在了“搬砖”上而不是真正的“砌墙”。存内计算Compute-in-Memory, CIM就是为了拆掉这堵墙而生的革命性思路——直接把“计算车间”搬到“数据仓库”里就地取材就地加工。但存内计算的发展早期更多聚焦于如何高效地执行一次性的计算任务比如完成一次图像识别。这有点像我们大脑只具备瞬间的反应能力却缺乏学习和记忆的成长性。而生物大脑的奇妙之处在于它拥有层次化的记忆系统短期记忆STM像一块随时擦写的白板快速但易逝长期记忆LTM则像刻在石板上的铭文稳定持久。更重要的是大脑有一种名为“巩固”的神奇机制通过反复的刺激和“排练”能将短期记忆中有价值的部分转化为长期记忆。这种机制对于持续学习、适应环境变化至关重要。那么能否在存内计算的硬件层面也构建出这样一套模仿生物记忆的、集成了短长期记忆及其动态转换的智能系统呢这正是我们今天要深入探讨的混合自旋/CMOS架构的核心目标。它不再仅仅是一个静态的计算加速器而是一个具备“学习”和“记忆成长”能力的动态硬件平台。简单来说它试图用电路和器件去模拟生物突触如何通过反复“练习”来强化连接强度的过程。这套架构的巧妙之处在于其“混合”设计它没有押宝在单一类型的器件上而是让两种特性迥异的器件“各司其职”。电容单元凭借其超快的读写速度、近乎无限的读写寿命和极低的静态功耗扮演了短期记忆的角色。它就像一个高速缓存负责处理频繁更新、快速迭代的在线学习数据。而自旋霍尔效应磁性隧道结作为一种非易失性存储器其数据在断电后也不会丢失且具有极低的保持功耗自然成为了长期记忆的理想载体。关键在于我们设计了一套硬件电路和算法能让电容STM中那些被频繁访问、证明是重要的数据自动、高效地“转存”到SHE-MTJLTM中实现从“易忘”到“牢记”的硬件级巩固。这种生物启发的混合架构其价值远不止于学术上的新奇。在现实世界的边缘AI、终身学习设备、以及需要适应动态环境的智能传感器中系统需要不断从新数据中学习但又不能忘记过去学到的核心知识。传统的纯非易失性存内计算方案虽然能保存长期权重但频繁的写入会严重损耗器件寿命且写入能耗和延迟较高不适合高频度的在线微调。而纯易失性的方案如纯电容阵列虽然学习速度快但一断电就“失忆”无法保存学习成果。本文探讨的STM-LTM混合架构正是在尝试取两者之长补两者之短为下一代高能效、自适应、具备持续学习能力的智能硬件芯片提供了一条极具潜力的技术路径。2. 核心器件解析电容与SHE-MTJ如何扮演记忆角色要理解整个架构如何工作我们必须先深入拆解它的两位“主角”作为短期记忆的电容单元和作为长期记忆的自旋霍尔效应磁性隧道结。它们各自的物理特性和电路实现直接决定了整个系统的性能边界。2.1 电容为何是短期记忆的理想载体在数字电路里电容常被看作一个存储电荷的元件而在我们的架构中它被赋予了更丰富的内涵——一个可快速编程、用于存内计算的二进制权重单元。核心原理与电路实现每个STM单元本质上是一个简化版的DRAM单元一个存取晶体管T1和一个存储电容C。晶体管由字线控制电容的一端连接到位线另一端通常接地或接源线。存储逻辑“1”或“0”对应的是电容被充电至高电平或放电至低电平的状态。在计算模式下多个这样的单元会组成一个电容交叉阵列。其执行乘累加运算的精妙之处在于电容分压原理。想象一下每一行的输入电压通过该行所有单元的电容进行加权电容值的大小或充电状态代表权重所有行的输出电流或电荷在列方向上的共享输出节点通常是源线上进行汇聚。通过精心设计的读出电路比如一个参考电容和灵敏放大器最终输出节点的电压值正比于所有输入电压与对应权重的乘积之和。这就是一次完整的模拟域乘累加操作完全在内存阵列内完成无需将权重数据读出到外部ALU。为什么适合做STM高速与高耐久性电容的充放电是纯粹的电荷运动速度极快通常在纳秒级别。更重要的是电容没有像阻变存储器那样的离子迁移或相变过程其读写操作几乎不引起物理磨损具备无限次的读写耐久性。这对于需要频繁进行权重更新如在线训练、自适应滤波的短期记忆任务至关重要。对称性与线性度电容的充放电特性相对线性且对称写入“1”和“0”的能量、时间代价相近。这保证了权重更新的精确性和可控性避免了某些非易失性存储器中存在的写不对称和非线性问题。极低的静态功耗理想电容不消耗直流功率。在实际电路中主要的静态功耗来自于晶体管的漏电流和保持电容电荷所需的刷新操作。但相比基于电阻的存内计算阵列中始终存在的静态电流通路电容阵列的静态功耗可以做到非常低甚至接近零这对于常开型的边缘设备是巨大优势。易失性双刃剑电容的电荷会随时间泄漏这既是缺点也是优点。作为STM这种“遗忘”特性恰恰模仿了生物短期记忆的自然衰减。不需要的数据会随着时间自动“淡出”为新的信息腾出空间。当然为了防止有价值的数据在巩固前丢失我们需要一个控制器来管理刷新和STM-to-LTM的转换。注意在实际设计中电容值的选择是一个权衡。较大的电容值有助于保持电荷、降低刷新频率、提高抗噪声能力但会占用更大的芯片面积并可能降低计算速度因为充放电时间常数变大。文中提到的22fF是一个在面积、速度和保持时间之间取得平衡的典型值。2.2 自旋霍尔效应磁性隧道结长期记忆的坚固基石如果说电容是灵巧迅捷的“信使”那么SHE-MTJ就是沉稳可靠的“史官”。它是一种基于电子自旋而非电荷的新型存储器件。结构与工作原理一个SHE-MTJ通常有三端一个用于写入的“写”端和两个用于读出的端子。其核心结构是在一条重金属导线如钨W或钽Ta上方制作一个磁性隧道结。MTJ本身由两层铁磁层固定层和自由层夹着一层极薄的氧化物势垒层构成。存储原理数据存储在自由层的磁化方向上。当自由层与固定层的磁化方向平行时器件处于低电阻态反平行时处于高电阻态。这两种稳定的电阻状态分别代表二进制“0”和“1”。写入切换原理这是SHE效应的用武之地。当我们在重金属导线中通入一个面内方向的电荷电流时由于自旋霍尔效应电子自旋会在导线上下表面积累产生一个垂直于电流方向的自旋流。这个自旋流注入上方的自由磁层会产生一个自旋轨道矩从而有效地推动自由层磁化方向发生翻转实现数据的写入。关键优势在于写入路径重金属层和读取路径MTJ本身是分离的这避免了传统自旋转移矩MTJ中读写干扰的问题提高了可靠性和寿命。读取原理通过MTJ的两个端子施加一个较小的读电压测量流过的电流或产生的电压降。由于高阻态和低阻态的电阻差异即隧穿磁阻比可以很容易地分辨出存储的数据。为什么适合做LTM非易失性一旦自由层磁化方向被设定在没有外部磁场或电流干扰的情况下它可以保持数年甚至数十年。这是长期记忆的基石断电后知识依然存在。高耐久性虽然不如电容但现代SHE-MTJ的耐久性可达10^12次以上足以应对长期记忆的有限次更新长期记忆的更新频率远低于短期记忆。纳秒级读写速度与低写入能量SHE效应的写入效率很高通常只需纳秒级的电流脉冲和皮焦耳量级的能量即可完成翻转比许多其他非易失性存储器如某些阻变存储器更快、更节能。与CMOS工艺兼容性好MTJ结构可以在后端工艺中与标准CMOS晶体管集成为制造大规模混合芯片提供了可能。实操心得SHE-MTJ参数选择重金属材料的选择至关重要。文中选用钨是因为其具有较大的正自旋霍尔角这意味着产生相同大小的自旋流所需的电荷电流更小从而直接降低了写入能耗。自由层的材料和尺寸决定了热稳定性数据保持力和开关电流的大小需要在保持力和写入能量之间进行折衷。3. 架构设计与工作模式混合系统的协同交响曲将电容和SHE-MTJ简单地堆叠在一起并不能实现智能的记忆巩固。整个架构的精髓在于一套精心设计的电路和控制系统让二者能够无缝协作在不同的任务模式下高效运转。图2所示的架构可以看作一个由许多基本单元组成的二维阵列每个单元都包含一对VM和NVM共享字线、位线和源线。3.1 三种核心工作模式控制器通过协调字线、位线、源线以及几个专用控制信号使整个阵列能在三种模式间灵活切换1. 计算模式电容交叉阵列大显身手这是系统执行神经网络推理或训练中前向/反向传播计算的主要模式。此时SHE-MTJ部分被关闭T2-T4晶体管断开舞台完全交给电容阵列。操作流程控制器同时激活多行字线将输入电压代表神经元激活值施加到对应的位线上。每个电容单元根据其存储的电荷状态代表权重通过电容耦合调制其所在列的源线电压。最终每一列的源线上会汇聚一个电压该电压是所有输入电压经过该列各电容权重加权求和后的结果。后级的灵敏放大器或模数转换器将这个模拟电压信号读出即完成了一次并行的乘累加运算。优势此模式充分利用了电容阵列高并行、低静态功耗、高速的特点是执行密集计算的主力。2. STM-to-LTM转移模式记忆的“巩固”时刻这是实现生物启发记忆巩固的关键。当控制器监测到某个电容单元代表一个突触权重在短时间内被频繁访问达到预设阈值就会触发此模式将该权重值从易失的电容“转存”到非易失的SHE-MTJ中。操作流程 a.电荷共享目标电容所在位线被预充电到VDD/2。字线打开电容与位线连通。如果电容存储的是“1”高电平它会向位线注入少量电荷使位线电压略微高于VDD/2如果是“0”则会吸收电荷使电压略低。产生一个微小的电压偏差δ。 b.信号放大与写入控制器发出wr信号打开T2晶体管。这个微小的δ电压偏差被一个专门的写入电路通常是一个灵敏放大器或比较器放大生成一个完整的、极性正确的写入电压Vwr或-Vwr施加到SHE-MTJ的写入端。 c.自旋翻转这个写入电压在重金属层中产生足够的电荷电流通过自旋霍尔效应转化为自旋流最终利用自旋轨道矩将SHE-MTJ的自由层磁化方向翻转到与电容数据对应的状态高阻或低阻。至此短期记忆被“固化”为长期记忆。设计要点写入电路的设计需要非常精细既要能灵敏地检测微小的δ电压又要能提供足够驱动SHE-MTJ的电流。同时wr信号通常按行控制可以实现一整行中所有达到阈值的权重同时进行巩固提高效率。3. LTM-to-STM检索模式知识的“唤醒”当系统断电重启或需要基于长期存储的核心知识进行新一轮学习时需要将SHE-MTJ中保存的权重“加载”回电容阵列中。操作流程 a.读取NVM位线预充电至VDD/2。控制器打开T3和T4晶体管对SHE-MTJ施加一个小的读电压。通过测量MTJ与一个参考电阻分压后的电压读出其电阻状态高阻/低阻。 b.写回VM读出的数据经过放大后用于控制对电容的充电电路。如果SHE-MTJ为高阻态代表某个值则向对应电容充电至高电平反之则放电。从而将长期记忆“恢复”到短期记忆的工作区中。3.2 控制器的智能硬件使能的巩固算法上述模式的切换并非随机而是由一个智能的子阵列控制器根据算法1来指挥。这个算法是硬件友好的核心是追踪每个突触的“刺激频率”。刺激计数控制器为每个位线对应一列权重维护一个计数器。每当该列在计算模式中被激活即有输入脉冲计数器就加一。这模拟了生物神经元突触后电位被频繁激发的场景。时间窗口算法设定了一个最小脉冲间隔。只有在规定时间窗口内发生的刺激才会被有效计数。这过滤掉了偶然、稀疏的噪声刺激只关注密集、有意义的信息流。阈值判断每个突触都有一个可配置的阈值。当某个电容单元的刺激计数在指定时间窗口内达到或超过这个阈值时控制器就判定该信息是重要的触发STM-to-LTM转移操作。刷新与检索电容会漏电因此需要定期刷新。在刷新周期到来时控制器可以选择直接用SHE-MTJ中的数据来恢复电容状态LTM-to-STM实现断电恢复或系统初始化。这种硬件实现的算法将“重要性判断”和“记忆操作”紧密耦合无需CPU干预实现了极低开销的在线学习与记忆管理。注意事项阈值的选择策略阈值是权衡系统行为的关键参数。设得太低任何细微变化都会被巩固导致LTM被无关信息填满且能耗增加。设得太高重要的模式可能因刺激不足而无法被长期记住。在实际应用中这个阈值可以是固定的也可以设计成可自适应调整的例如根据网络整体学习进度动态变化。4. 性能评估、权衡与实战考量任何创的硬件架构最终都要用性能和能效的标尺来衡量。我们通过SPICE仿真和系统级建模对这套混合STM-LTM架构进行了全面的评估揭示了一些关键的设计权衡和优化方向。4.1 电路级性能与巩固概率分析首先在电路层面我们证了核心操作的功能和速度。图7的瞬态仿真波形清晰地展示了数据从电容VM转移到SHE-MTJNVM的全过程。从字线激活到电荷共享产生微小电压偏差δ再到写入电路将其放大并驱动SHE-MTJ翻转整个过程大约需要30纳秒。这个延迟主要受限于SHE-MTJ磁化翻转的动力学过程由Landau-Lifshitz-Gilbert方程描述对于存内计算操作来说处于可接受的范围内。更有趣的是对STM-to-LTM转移概率的分析图8。我们使用了一种称为概率比特的随机神经元作为输入源来模拟真实的、带有噪声的神经脉冲。结果显示转移概率高度依赖于两个参数刺激阈值和脉冲间隔。固定脉冲间隔如40ns当刺激阈值从10次提高到60次时转移概率从约75%骤降至17%。这意味着阈值是控制记忆“选择性”的精密旋钮。在需要快速学习新环境的场景如机器人探索可以设置较低的阈值在需要稳定、避免被噪声干扰的场景如已训练模型的增量微调则应设置较高的阈值。固定刺激阈值增大脉冲间隔即放宽时间窗口转移概率会上升。这是因为在更长的时间窗口内达到相同刺激次数的概率增加了。这允许设计者根据输入数据的自然时间尺度来调整巩固的时间窗口。4.2 系统级能耗与阵列规模权衡我们从单元电路特性出发自底向上构建了系统级的能耗模型并利用MNIST手写数字数据集在一个两层感知机网络上进行了评估。能耗分解图9揭示了几个重要趋势编程能耗主导对于电容阵列主要的能耗来自于对电容进行写入/刷新以存储权重的“编程”操作。对于一个32x32的阵列每次突触编程的平均能耗约为65皮焦耳。随着阵列规模增大到256x256总编程能耗显著上升这是因为需要驱动更长的导线和更多的单元。STM-to-LTM转移能耗将数据从电容写入SHE-MTJ的巩固操作其单次转移能耗约为30.2皮焦耳。这部分能耗包括读取电容状态、放大信号和驱动SHE-MTJ翻转。图9显示这部分能耗也随阵列规模增大而近似线性增长。阈值对巩固能耗的影响提高刺激阈值意味着控制器需要进行更多次的计数和比较操作才能触发一次巩固。因此在相同阵列规模下更高的阈值会导致更高的STM-to-LTM转移能耗。例如在32x32阵列中将阈值从10提高到15巩固能耗增加了约1.8倍。这是一个典型的可靠性选择性与能耗之间的权衡。设计启示芯片架构师需要根据目标应用的工作负载数据稀疏性、更新频率和精度要求来综合选择阵列规模和刺激阈值。对于小规模、高更新频率的边缘推理芯片可能采用较小规模阵列和中等阈值以平衡能耗和适应性。对于大规模、训练后以推理为主、偶尔进行微调的芯片可以采用大规模阵列和较高阈值以降低不必要的巩固操作能耗。4.3 工艺波动与可靠性挑战在实际的硅芯片制造中工艺波动和热噪声是无法避免的。我们对SHE-MTJ的关键参数进行了蒙特卡洛仿真以评估其可靠性。热噪声影响在300K室温下热扰动会施加一个随机的磁场噪声到自由层上。这可能导致SHE-MTJ的开关行为出现波动。我们的仿真表明热噪声不会显著降低STM-to-LTM的转移概率因为巩固操作是由一个经过放大的、确定性的写入电压脉冲驱动的其能量足以克服典型的热噪声涨落。然而热噪声会略微增加写入失败的概率从而导致平均巩固能耗有小幅上升如图9中误差棒所示。工艺波动影响我们重点分析了氧化物层厚度和隧穿磁阻比的波动对读取可靠性的影响。图10的仿真显示氧化物厚度增加MTJ中间氧化物势垒层的厚度会增大高阻态和低阻态之间的电阻差从而在读取时产生更大的电压裕量。这意味着即使存在工艺偏差电路也能更清晰地区分“0”和“1”显著提升了长期记忆存储的可靠性。TMR波动隧穿磁阻比的波动会直接影响读取信号的强弱。仿真表明在给定的工艺偏差范围内如±5%我们设计的读取电路仍有足够的余量来正确判别状态。避坑技巧提升可靠性的设计策略设计冗余对于最关键的长期记忆权重可以考虑使用多个SHE-MTJ单元存储同一数据采用多数表决读取。写验证与重试在巩固操作后可以立即进行一次读取验证写入是否成功。若失败可触发一次更强或更长的重写脉冲。自适应写入策略根据芯片测试阶段或运行时监测到的单元特性动态调整写入脉冲的幅度或宽度以补偿工艺波动。4.4 与同类架构的横向对比我们将本文的混合架构与几种有代表性的前期工作进行了对比表3优势明显对比维度纯MTJ方案纯忆阻器方案双SHE-MTJ方案本文混合方案STM实现瞬态中间态非独立瞬态中间态非独立独立的SHE-MTJ单元独立的电容单元LTM实现同一MTJ同一忆阻器独立的SHE-MTJ单元独立的SHE-MTJ单元STM可用性无法用于计算无法用于计算可用于计算可用于计算电容阵列单次编程能耗~110 pJ~92 pJ~23.7 pJ~65 pJSTM-to-LTM转移能耗~164 pJ~122 pJ未详细报告~30.2 pJ核心优势器件简单器件简单编程能效高STM实用、巩固能效高、计算并行度高分析纯MTJ/忆阻器方案它们利用单个器件的电导连续变化来模拟巩固过程。虽然概念简洁但“短期记忆”仅仅是器件朝向长期状态转变中的一个瞬态无法被稳定地读取并用于并行计算。这违背了生物记忆中STM可被主动使用的特性。双SHE-MTJ方案它采用了两个独立的SHE-MTJ分别作为STM和LTM是一个重要进步。其编程能耗最低。但其STM-to-LTM转移机制可能仍依赖于复杂的脉冲序列且两个MTJ的写入能耗叠加可能使其巩固总能耗并不占优。本文混合方案最大的创新在于真正实现了功能解耦。电容STM专攻高速、低功耗的在线计算和频繁更新SHE-MTJ LTM专攻稳定、非易失的长期存储。二者通过优化电路进行高效转换。虽然在单纯“存储一位数据”的编程能耗上不如双MTJ方案极致但在实现“可用的短期记忆”和“高效的记忆巩固”这两个核心目标上取得了更佳的平衡。其STM-to-LTM转移能耗比前两种方案降低了75%以上优势显著。5. 总结与展望通往更智能硬件的道路回顾这套混合自旋/CMOS的STM-LTM存内计算架构它的价值不仅仅在于提出了一种新的电路设计更在于为神经形态计算硬件引入了一个时间维度和价值判断的维度。它让硬件像生物一样能够区分信息的时效性和重要性并据此动态地管理存储资源。在实际流片和部署中我认为还有几个值得深入探索的方向多级巩固与遗忘机制目前的模型是二元的STM或LTM。生物记忆其实有更多层次。未来是否可以引入多级SHE-MTJ通过不同尺寸或材料实现不同的保持力或者设计更复杂的算法让记忆根据“访问频率”和“时间远近”在多级存储间迁移甚至实现主动遗忘将LTM中久访问的内容降级或清除算法-硬件协同设计刺激阈值目前是预设的。能否设计一个在线的、基于全局网络损失或局部激活统计的阈值调整电路让硬件能够根据学习任务的自身体征动态优化巩固策略。扩展到多值/模拟权重本文聚焦二进制权重这对许多推理任务已足够。但对于需要更高精度的训练任务需要探索如何用电容和SHE-MTJ的组合来高效表示多比特甚至模拟权重。例如可以用多个电容/SHE-MTJ单元组合或者利用SHE-MTJ电导的连续可调性虽然难度较大。系统集成与工具链这样一套异构的存内计算系统需要全新的编译器、映射工具和运行时管理软件。如何将神经网络模型高效地映射到STM和LTM资源上如何调度计算和巩固任务这都是从实验室原型走向实际应用必须解决的问题。踩过一些原型的坑后我深刻体会到这类生物启发硬件的设计绝不能只追求器件层面的新奇更不能只盯着单项指标的突破。必须在系统层面通盘考虑功能、能效、可靠性、可制造性以及算法适配性。本文的混合架构通过让电容和SHE-MTJ这对“黄金搭档”各展所长并在它们之间搭建了一座高效的“巩固之桥”为我们构建真正具备持续学习能力的下一代智能芯片提供了一个坚实而富有启发的起点。这条路还很长但方向已经越来越清晰。