1. 从一篇旧文说起当3D XPoint遇上存储单元与选通器最近在整理一些老旧的行业资料时翻到了EE Times在2017年的一篇分析文章讲的是英特尔Optane XPoint内存中的存储单元与选通器元件。文章的作者是TechInsights的资深技术研究员Jeongdong Choe他当时基于对芯片的物理剖析揭示了XPoint技术的一些核心架构细节。虽然这已经是七年前的“旧闻”但今天回过头看里面讨论的许多技术权衡、材料选择与架构思想依然对理解新型存储技术乃至整个半导体存储领域的演进逻辑有着非常深刻的启发。这篇文章的核心是拆解了英特尔与美光联合研发的3D XPoint内存也就是后来英特尔品牌下的Optane在芯片层面的实现。当时大家最惊讶的发现是这块被寄予厚望、号称比NAND快千倍、比DRAM容量密度高的“革命性”内存其单位面积的存储密度Gb/mm²竟然远低于当时主流的3D TLC NAND闪存。数据很直观三星48层V-NAND能做到2.57 Gb/mm²而初代XPoint只有0.62 Gb/mm²。这个数字甚至比当时最先进的DRAM如三星18nm工艺的0.189 Gb/mm²要高但距离NAND的“海量”存储仍有巨大差距。为什么会出现这种“性能强、密度低”的现象这恰恰是理解XPoint乃至所有试图在DRAM和NAND之间寻找“中间层”的新型存储技术的关键。它不是一个简单的“谁好谁坏”的问题而是一系列底层物理原理、材料特性、电路架构和制造成本之间复杂博弈的结果。Choe的文章点出了两个最核心的元件存储单元和选通器。XPoint采用了双层堆叠的结构下层是用于存储数据的相变材料上层则是控制电流通断的双向阈值开关。这个组合决定了它既不能像DRAM那样依靠电容的快速充放电也不能像NAND那样通过多级电荷存储来疯狂提升密度。所以我们今天不妨就以这篇旧文为引子抛开那些市场宣传的光环深入到芯片的横截面和材料配方里看看3D XPoint到底是怎么“干活”的它为什么选择了这样一条技术路径以及这些选择背后所反映的、存储技术发展中那些永恒的挑战与妥协。这对于硬件工程师、存储架构师乃至只是对技术底层好奇的开发者来说都是一次很好的思维训练。2. 存储密度的迷思为何XPoint“输给”了NAND当我们谈论存储芯片的“密度”时通常指的是单位芯片面积上能存储的数据量Gb/mm²。这是一个将芯片物理尺寸和存储容量直接挂钩的硬指标直接关系到最终产品的成本和容量。2017年TechInsights的剖析显示初代3D XPoint内存芯片的存储密度仅为0.62 Gb/mm²。这个数字放在当时是什么水平我们来看一组对比三星48层3D V-NAND (TLC): 2.57 Gb/mm²东芝/西部数据48层BiCS NAND (TLC): 2.43 Gb/mm²美光32层3D NAND (TLC): 2.28 Gb/mm²SK海力士36层P-BiCS NAND (MLC): 1.45 Gb/mm²三星18nm DRAM: 约0.189 Gb/mm²显然XPoint的密度远低于同时代的3D NAND但又显著高于DRAM。这个看似尴尬的中间位置其实是由其根本的工作原理和单元结构决定的。2.1 存储原理的根本差异模拟vs.数字多级vs.二级NAND闪存之所以能实现高密度核心秘诀在于两点多级单元和电荷存储。多级单元一个NAND存储单元Cell通过精确控制浮栅中 trapped 的电子数量可以表示多个电压状态。对于SLC单级单元一个Cell存1比特0或1MLC两级单元存2比特00, 01, 10, 11TLC三级单元存3比特QLC四级单元存4比特。这意味着在物理上尺寸几乎相同的单元里TLC NAND的存储密度理论上是SLC的3倍。这是通过极其复杂的模拟电压控制和纠错算法实现的本质上是模拟信号处理。电荷存储NAND的存储介质是浮栅晶体管信息以电荷电子的形式存储。通过隧穿效应注入或移除电荷来改变阈值电压。这种机制允许单元尺寸做得非常小并且可以通过3D堆叠把存储单元像摩天大楼一样垂直叠起来来突破平面工艺的密度极限。3D NAND的层数从32层、48层一路发展到现在的200层以上密度提升主要靠“往上盖楼”。而3D XPoint的工作原理则完全不同。它基于相变存储器技术。其存储单元的核心是一小撮硫系化合物最常见的是锗-锑-碲合金。这种材料有一种特性在通过不同大小和脉宽的电流加热后可以在晶态低电阻代表“1”或“0”和非晶态高电阻代表另一种状态之间可逆地转变。这是一种二元电阻切换机制。注意虽然相变材料本身通过调节晶化程度可以实现多级存储MLC PCM但在初代XPoint产品中英特尔为了确保极高的可靠性、耐久性和速度选择了单级存储即一个单元只存储1比特数据。这是其密度低于TLC/QLC NAND的首要原因。用1个单元存1个比特去和别人1个单元存3-4个比特竞争在密度上天然吃亏。2.2 单元结构与选通器的“占地面积”开销除了存储原理单元结构本身也占用了面积。NAND闪存采用类似NOR Flash的阵列结构多个单元共享位线和源线并通过晶体管串联成“NAND字符串”。在3D NAND中这种字符串是垂直穿透多个存储层的单元之间的共享程度很高阵列效率存储单元面积占总芯片面积的比例可以做到60%-70%。而采用“CMOS under Array”技术的美光NAND更是将外围电路全部埋在存储阵列下方阵列效率高达85%。XPoint的内存阵列效率其实更高超过了90%。因为它也采用了类似的“底层CMOS”架构所有的驱动电路、解码器、位线访问晶体管、本地数据与地址控制逻辑都制作在硅衬底上位于存储单元层的下方介于金属层M4和M5之间。这意味着从俯视图看芯片表面几乎全是存储阵列几乎没有给外围电路留位置。但是高阵列效率并不直接等同于高存储密度。因为每个XPoint存储单元在垂直方向上不是一个简单的“点”而是一个双层堆叠的柱状结构。这个柱子从下到上包括底电极、选通器材料、中间电极、相变存储材料、顶电极。每一个存储单元都需要这样一个独立的、功能完整的“垂直栈”。相比之下3D NAND中同一垂直通道上的多个存储单元是共享同一个沟道柱的只是每个单元在垂直方向上有自己独立的控制栅和电荷陷阱层。这种结构使得3D NAND在垂直堆叠时单元尺寸的缩放更具优势。更重要的是选通器。在NAND阵列中每个存储单元本身就是一个晶体管具有开关特性。但在XPoint的交叉点阵列中存储单元相变材料本身不具备自选通能力。如果直接在字线和位线的交叉点上放置相变材料当对某一个单元进行读写时电流可能会通过其他并联的非目标单元泄漏导致误操作。这就是所谓的“潜行路径”问题。因此每一个XPoint存储单元都必须配备一个独立的、高性能的选通器与存储单元串联。这个选通器就像一个非常灵敏的电流开关只有在施加的电压超过某个阈值时才会瞬间导通提供读写存储单元所需的大电流电压一旦低于阈值或移除则迅速恢复到高阻态完美隔离非目标单元。这个选通器本身也需要物理空间在垂直堆叠中表现为一层材料增加了单元的复杂性和有效“占地面积”。所以XPoint的密度是单元尺寸由光刻和工艺决定、单比特/单元、以及必须集成选通器三者共同作用的结果。它用结构复杂性和单元面积换来了无需晶体管介入每个单元、可实现高速随机访问的交叉点阵列架构。3. 核心元件深潜相变存储与双向阈值开关理解了密度差异的宏观原因我们再来微观解剖XPoint的两个核心存储单元和选通器。这是这项技术的灵魂所在。3.1 存储单元硫系合金的相变之舞英特尔为XPoint选择的存储介质是锗-锑-碲合金。这是一种非常经典的相变材料在光盘如DVD-RW中已有多年应用历史。其相变原理如下复位操作施加一个短而强的电流脉冲RESET pulse。电流产生的焦耳热使GST材料局部温度瞬间升高至其熔点约600°C以上然后急速冷却淬火。由于冷却速度极快原子来不及有序排列材料在接触电极的局部区域形成非晶态。非晶态GST具有很高的电阻通常为兆欧姆级别这个状态被定义为逻辑“0”或“1”取决于设计。置位操作施加一个较长但较弱的电流脉冲SET pulse。这个脉冲将材料加热到介于结晶温度约150°C和熔点之间并保持一段时间。在这个温度下原子有足够的时间和能量进行扩散和重排材料从非晶态转变为晶态。晶态GST的电阻很低通常为千欧姆级别这个状态被定义为相反的逻辑值。电阻值的差异通常有几个数量级使得读取操作非常简单施加一个很小的、不会引起相变的读取电压测量流过单元的电流大小即可判断其电阻状态从而读出存储的数据。为什么选择GST在新型存储器的众多候选者中如阻变存储器、磁阻存储器、铁电存储器等相变存储器是当时最成熟、工艺与CMOS兼容性较好的方案之一。可靠性GST材料的相变特性稳定循环寿命耐久性在早期研究中就显示出达到10^8次以上的潜力远高于NAND闪存通常10^3 - 10^5次。速度相变速度在纳秒级别尤其是复位操作可以非常快。这为达到DRAM级别的读写延迟提供了可能。可微缩性相变区域可以做得非常小理论上可达几个纳米有利于未来工艺节点的缩放。CMOS兼容GST材料可以通过标准的半导体沉积工艺如PVD集成到后端制程中与底层CMOS电路制造流程冲突较小。3.2 选通器双向阈值开关的精准控制如果说存储单元是仓库选通器就是仓库门上那把智能锁。XPoint采用的选通器是双向阈值开关。这也是一种基于硫系化合物的器件但其成分与GST不同根据TechInsights的材料分析其中掺杂了砷等元素。OTS的工作原理基于一种快速的、体效应的电子开关现象而不是相变关态当施加的电压低于某个临界值阈值电压Vth时OTS材料处于极高的电阻状态~GΩ级几乎不导电。开态当电压超过Vth时材料在纳秒甚至皮秒级的时间内发生雪崩式的电子注入电阻急剧下降数个数量级进入低阻态允许大电流通过。双向性无论电压极性是正是负只要绝对值超过VthOTS都能导通。这对于简化阵列设计和读写操作至关重要。自限流导通后其I-V特性呈现负微分电阻特性即电流增大时两端电压反而会下降并维持在一个相对稳定的水平 holding voltage, Vh。这有助于防止过大的电流损坏串联的存储单元。OTS vs. 晶体管/二极管为什么不用更成熟的晶体管或二极管做选通器晶体管每个存储单元配一个晶体管1T1R或1T1C结构是DRAM和许多嵌入式存储器的做法。但这会显著增大单元面积晶体管本身比电阻/相变单元大得多违背了交叉点阵列追求高密度的初衷。二极管二极管具有单向导电性是许多RRAM和早期PCM阵列的选择。但二极管存在正向开启电压约0.7V for Si这会抬高整个阵列的操作电压。而且二极管的性能如漏电流对工艺波动敏感。OTS的阈值开关特性更陡峭关态漏电极低且没有极性更适合用于高密度、低功耗的交叉点阵列。实操心得选通器的挑战在实际制造中OTS选通器是技术难点之一。其材料配方、厚度、与上下电极的界面特性都需要精确控制以确保一致的阈值电压阵列中数百万甚至数十亿个OTS的Vth必须高度均匀否则读写操作所需的电压裕度会变得非常紧张。高耐久性OTS需要承受与存储单元相同次数的开关循环其性能不能过早退化。低热预算OTS层是在存储单元层之前或之后沉积的整个工艺的热循环不能影响已制作好的CMOS电路和存储单元的特性。TechInsights的截面图显示OTS层并没有完全覆盖中间电极或底电极而是被图案化成与存储单元对齐的柱状或孔状。这种结构设计有助于减小寄生电容提升速度但也对刻蚀和填充工艺提出了极高要求。4. 架构与工艺交叉点阵列与底层CMOS的协同理解了单元和选通器我们再把视角拉高看它们是如何组织成一颗完整芯片的。XPoint的核心是一种无晶体管的交叉点阵列。4.1 交叉点阵列简洁与挑战并存想象一个网格水平方向是字线垂直方向是位线。在每个交叉点上放置一个存储单元选通器的串联堆叠体。这就是XPoint的存储阵列。其优点显而易见结构简单单元只有两条线字线和位线连接理论上可以实现4F²的单元尺寸F是特征尺寸这是除了NAND字符串之外最紧凑的二维布局之一。随机访问通过选中特定的字线和位线可以直接访问位于交叉点的那个单元无需像NAND那样进行页编程和块擦除。这是实现低延迟的关键。可堆叠性这种二维网格可以很容易地在垂直方向上层叠起来形成3D结构从而在不增加芯片面积的情况下倍增容量。但挑战同样巨大潜行路径如前所述需要高性能选通器来解决。线电阻与RC延迟随着阵列规模增大字线和位线会变得很长其电阻和与相邻线之间的电容会导致信号延迟和衰减。这限制了单个阵列的最大尺寸。解决方案是将大阵列分割成许多小的子阵列每个子阵列有自己的驱动和传感放大器。读写干扰在对目标单元操作时同一字线或位线上的其他半选单元会承受一半的电压V/2。OTS和PCM都必须能够可靠地承受这种半选电压而不发生状态改变这要求器件具有高度的非线性特性。4.2 底层CMOS高效的后勤保障系统XPoint芯片的高阵列效率90%得益于其底层CMOS架构。所有的“后勤”电路——行/列地址解码器、字线/位线驱动器、灵敏放大器、数据缓冲器、控制逻辑——都制作在硅衬底上位于存储阵列的下方。存储阵列则构建在几层金属互连层之上在M4和M5之间。这种架构的优势是最大化存储面积芯片表面几乎全部留给存储单元提升了有效存储密度。优化互连CMOS电路可以使用最先进的逻辑工艺来制造以获得高性能和低功耗。存储阵列则可以使用更适合其材料特性的、可能更宽松的工艺节点。热管理存储单元在读写尤其是RESET操作时会产生热量。将发热的存储阵列与对温度敏感的CMOS电路在垂直方向上隔开并通过金属层进行热扩散有利于整体可靠性。工艺复杂度考量有评论指出XPoint芯片需要大量的20nm级光刻层并可能涉及多次自对准双重/四重图案化技术。这是为了实现高密度的交叉点阵列线条。每一层字线和位线的定义都需要极高的精度以确保上下层之间的对准并形成均匀的存储单元柱。这种工艺复杂度直接转化为更高的制造成本。相比之下3D NAND虽然层数多但许多层是通过一次刻蚀形成的重复结构光刻层数相对较少工艺在某些方面可能更“简单”。这也是为什么XPoint在成本上始终难以与大规模量产的3D NAND竞争的原因之一。5. 定位与权衡在DRAM与NAND的夹缝中分析了这么多技术细节我们回到最初的问题3D XPoint的定位究竟是什么它试图解决什么问题5.1 性能与密度的权衡表让我们用一个简化的表格来对比三种技术的关键特性特性DRAM3D XPoint (Optane)3D NAND (TLC/QLC)存储原理电容电荷相变材料电阻浮栅晶体管电荷单元结构1T1C1S1R (OTS PCM)3D NAND字符串读写速度极快(纳秒级)快(百纳秒到微秒级)慢(读微秒级写/擦毫秒级)随机访问字节级极佳字节级优秀页/块级差存储密度低 (0.1-0.2 Gb/mm²)中等 (0.6-1 Gb/mm²)高(2-5 Gb/mm²)非易失性否 (需刷新)是是耐久性极高 (10^16次)高 (10^6-10^8次)低 (10^3-10^5次)功耗高 (静态刷新功耗)低 (静态无功耗)低 (静态无功耗)成本/比特最高高最低从这个对比可以清晰看出XPoint在性能速度、延迟、随机性上远超NAND接近DRAM在非易失性和密度上远超DRAM但逊于NAND在成本和密度上则无法与NAND匹敌。它是一个不折不扣的折中方案。5.2 目标应用场景与现实的差距英特尔最初为Optane设想的应用场景非常广阔内存扩展作为DRAM的扩展充当“持久内存”在系统断电后数据不丢失同时容量远大于DRAM。高速存储作为SSD的存储介质提供远超NAND SSD的随机读写性能特别是对于低队列深度的小块IO。缓存层在DRAM和NAND SSD之间充当智能缓存自动存放热点数据。在实际市场中Optane持久内存PMem在高端数据库、大数据分析等需要超大内存池的应用中取得了一定成功。Optane SSD则在需要极致低延迟和稳定性的企业级存储、金融交易等领域有应用。然而其商业成功远未达到颠覆性的程度。核心原因在于成本复杂的材料和工艺导致其每比特成本始终远高于NAND。在大多数消费级和主流企业级场景容量和成本是首要考量性能差距可以通过软件、缓存和更多NAND通道来部分弥补。生态要充分发挥持久内存的优势需要操作系统、文件系统、数据库和应用软件进行深度优化和适配这是一个漫长的生态构建过程。NAND的快速进化3D NAND的层数竞赛和QLC/PLC技术的推进使其容量成本优势不断扩大。同时NVMe协议、PCIe 4.0/5.0接口以及主控算法的进步使得高端NAND SSD的性能已经能够满足绝大多数应用的需求。个人体会XPoint/Optane的技术路径是一次勇敢且极具启发性的探索。它证明了在DRAM和NAND之间确实存在一个技术可行且性能优异的“中间点”。它像一把尺子量出了存储技术各个维度速度、密度、非易失性、成本之间相互制约的残酷关系。它的市场表现也说明在商业世界仅仅有优秀的技术参数是不够的必须在恰当的时点以有竞争力的成本解决足够痛的市场问题。对于工程师而言研究Optane的价值在于理解这种跨界的系统级思维以及如何在材料、器件、电路、架构等多个层级进行协同设计和权衡。它的许多技术遗产如相变材料研究、OTS选通器设计、高密度交叉点阵列工艺未来很可能在其他新型存储器如CBRAM、OxRAM或神经形态计算器件中找到新的用武之地。6. 技术遗产与未来启示尽管英特尔的Optane产品线已经终止但3D XPoint技术所代表的研究方向和积累的知识产权并未随之消失。它留下了宝贵的技术遗产并对存储和计算领域的未来发展方向提供了清晰的启示。6.1 材料与器件的持续探索XPoint将相变存储和双向阈值开关这两种基于硫系化合物的器件推向了大规模量产的舞台积累了海量的材料科学、器件物理和工艺集成数据。相变材料优化为了追求更快的速度、更低的功耗、更高的耐久性和更好的数据保持特性对GST合金以及其他新型相变材料如掺杂氮、碳、硅的研究仍在继续。这些研究不仅服务于存储器也应用于可重构光子器件、神经形态计算等领域。选通器革新OTS的性能是交叉点阵列的命门。如何获得更陡峭的开关曲线、更低的阈值电压、更一致的性能、以及更高的可靠性是业界持续攻关的重点。除了硫系OTS基于金属绝缘体转变、混合离子电子导体等原理的新型选通器也在研究中。后端集成工艺将复杂的多层材料堆叠电极、OTS、PCM、电极集成到CMOS后端制程中并保证良率是一套极其宝贵的工艺经验。这套经验对于集成其他新兴的存储器如MRAM、FeRAM、RRAM同样至关重要。6.2 架构思想的渗透存算一体与近内存计算XPoint的交叉点阵列架构本质上是一个巨大的、可寻址的电阻网格。这个网格除了存储数据还有一个更诱人的潜力进行模拟计算。当我们在字线上施加电压在位线上读取电流时根据欧姆定律和基尔霍夫定律读出的电流是所有被激活的单元电导电阻的倒数的加权和。这恰好是向量-矩阵乘法运算的基本形式。这正是存内计算或存算一体的核心思想之一。虽然XPoint本身并非为存算一体设计其读写机制需要大电流改变相变状态与模拟计算的线性、可逆性要求有冲突但它验证了高密度、可堆叠的交叉点阵列在工艺上是可行的。这为专门为AI计算设计的、基于阻变存储器或相变存储器模拟特性的存算一体芯片铺平了道路。这些芯片有望突破“内存墙”限制在低功耗下实现极高的AI推理能效。此外Optane持久内存让系统拥有了TB级别的、可按字节寻址的、接近DRAM速度的非易失内存池。这催生了近内存计算的理念。与其让数据在CPU、DRAM和慢速存储之间来回搬运不如将计算任务尤其是数据密集型的分析、处理任务直接调度到拥有海量持久内存的节点上执行或者使用新的编程模型如SNIA的PMDK来最大化利用持久内存的低延迟特性。6.3 对系统设计的深远影响Optane的出现迫使整个计算机体系结构社区重新思考存储层次。传统的“CPU缓存-DRAM-磁盘/SSD”的层次结构被打破一个名为“Storage Class Memory”的层级被正式提出和讨论。尽管Optane本身可能不是SCM的最终答案但它成功地扮演了“概念验证”的角色。它让操作系统、文件系统、数据库和应用程序开发者开始认真考虑如何管理一个既像内存又像存储的东西。诸如Apache Spark、Redis、MySQL等软件都推出了针对持久内存的优化版本或使用模式。这些软件层面的探索和优化经验是持久的未来无论哪种SCM技术成为主流这些经验都能快速复用。最后再分享一个观察在半导体行业一项新技术从实验室走向大规模市场往往需要跨越“死亡之谷”。这个山谷的一边是技术可行性另一边是经济可行性和生态系统支持。3D XPoint漂亮地跨越了技术可行性的山峰证明了从材料、器件到架构的完整链条是通的。但在攀爬经济可行性和生态系统的另一座山峰时它遭遇了NAND技术快速迭代和成本急剧下降的“雪崩”以及构建全新软件生态的漫长周期。它的故事告诉我们在硬件创新中时机的选择、成本的管控和生态的共建其重要性丝毫不亚于技术本身的先进性。对于后来者无论是研究RRAM、MRAM还是其他颠覆性存储技术XPoint的经验与教训都是一本值得反复研读的教科书。