Chiplet架构如何重塑以太网交换芯片设计与数据中心网络
1. 以太网交换芯片市场的变革前夜如果你在过去十年里一直关注数据中心网络硬件可能会觉得这个领域有些“沉闷”。巨头们似乎遵循着一条清晰的路径博通Broadcom和思科Cisco等老牌玩家每隔几年推出一代新的ASIC专用集成电路交换机厂商基于这些芯片设计产品然后云巨头和大型企业采购部署。性能在稳步提升从10G到25G、100G再到今天的400G但游戏规则似乎没怎么变。然而我最近和一些在一线做芯片设计的朋友深聊再结合行业报告和市场动向发现一场静默但深刻的“地震”正在以太网交换芯片的核心地带酝酿。这场变革的核心驱动力正是“解耦”Disaggregation思维的深化——它已经从软件和硬件之间蔓延到了硅片本身的设计哲学。传统上一颗高性能的以太网交换芯片是一个庞然大物或者说一个“巨核”Monolithic Die。它集成了数以百亿计的晶体管包含了数据包处理流水线、庞大的共享缓存、高速SerDes串行器/解串器物理层接口以及复杂的控制逻辑。这种设计就像建造一座功能齐全的摩天大楼所有设施都挤在一个地基上。它的优势是内部通信延迟极低、性能可预测。但劣势也显而易见设计周期漫长动辄18-24个月、流片成本高昂数千万美元级别、工艺制程绑定通常依赖台积电等代工厂最先进的节点并且任何一个小模块的缺陷都可能导致整个芯片报废良率挑战巨大。而云计算的巨头们——亚马逊AWS、微软Azure、谷歌云、Meta——他们的需求正在无情地冲击着这种传统模式。他们的数据中心规模庞大到超乎想象对网络带宽的渴求没有止境。AI/ML工作负载、分布式存储、微服务架构都在推动着东西向流量的爆炸式增长。他们不再满足于通用型的“黑盒”交换机而是希望网络能够像他们的软件一样可编程、可定制、可快速迭代。这就对底层芯片提出了新要求不仅要快还要灵活不仅要功耗低还要成本可控不仅要性能高还要能快速跟上业务创新的步伐。于是我们看到了一条清晰的演进路径首先软件与硬件解耦通过SONiC开放网络操作系统等开源网络操作系统用户可以从不同厂商购买白牌交换机硬件并运行统一的软件栈。这一步已经基本完成并深刻改变了交换机市场的格局。接下来正如我们正在经历的解耦的浪潮正涌向硬件内部特别是最核心的交换芯片。这就是“Chiplet”芯粒架构和“Disaggregated Silicon”解耦硅片概念开始大行其道的原因。这不仅仅是技术路线的改变更可能重塑整个产业链的竞争格局为新的玩家打开一扇窗同时迫使传统巨头重新思考他们的策略。2. 驱动力与市场信号为何变革在此刻发生任何技术架构的变迁都不是凭空发生的背后一定有强烈的经济和技术驱动力。对于以太网交换芯片而言当前正处在多个趋势的交汇点上使得向Chiplet架构的转型从“可选”变成了“必选”。2.1 带宽需求的指数级增长与“摩尔定律”的放缓这是最根本的驱动力。数据中心内部网络带宽大约每18-24个月翻一番这个速度甚至超过了经典的摩尔定律晶体管密度每18-24个月翻一番。从10G到25G/100G再到400G和正在到来的800G对交换机芯片的吞吐量要求从每秒数百Gb跃升到数十Tb。下一代数据中心骨干交换机正在瞄准51.2 Tbps甚至更高的吞吐量。然而制造单颗能支持如此高吞吐量的巨核芯片正变得越来越困难。首先它受限于光刻机的“光罩尺寸限制”Reticle Limit。简单来说一片硅晶圆通过光刻机一次曝光所能制造的最大芯片面积是有限的。对于最先进的工艺节点如3nm、2nm这个限制使得单颗芯片的尺寸无法无限增大从而限制了能集成进去的晶体管数量和SerDes通道数。想要做出更高带宽的芯片要么在工艺上冒险成本剧增要么就得另辟蹊径。其次随着工艺节点演进到5nm、3nm晶体管尺寸微缩带来的性能提升和功耗下降的收益正在边际递减而设计和制造成本却呈指数级上升。一颗基于最先进工艺的巨核ASIC其流片成本对于很多公司来说已经是不可承受之重。这使得采用更成熟、成本更低的工艺来制造部分模块再通过先进封装技术集成成为一个极具吸引力的经济选择。2.2 异构集成与灵活性的商业诉求现代数据中心的工作负载高度多样化。有的需要极高的吞吐量和低延迟如AI训练集群的GPU间通信有的需要复杂的网络功能如安全策略、负载均衡、遥测有的则对成本极其敏感如冷存储集群。一颗“一刀切”的巨核ASIC很难在所有场景下都做到最优。它可能为了满足最苛刻的性能需求而集成了许多对某些场景来说冗余的功能从而推高了成本和功耗。Chiplet架构允许“混搭”。例如一家公司可以设计一个采用最先进5nm工艺的高性能数据包处理核心负责查表、转发决策同时搭配采用更成熟7nm或12nm工艺的、经过市场验证的高能效SerDes Chiplet。甚至可以从不同的供应商那里采购最优的“IP核”以Chiplet形式集成A公司的SerDesB公司的内存控制器C公司的可编程流水线。这种灵活性使得芯片设计更像搭乐高积木能够快速组合出针对特定市场细分如AI网络、存储网络、电信边缘的优化解决方案缩短产品上市时间Time-to-Market。2.3 供应链风险与技术创新节奏的解耦在传统模式下SerDes的演进速度与芯片其他部分的演进深度绑定。SerDes是模拟/混合信号电路其设计复杂对工艺特性非常敏感往往需要更长的设计和验证周期。而数字逻辑部分如转发引擎、缓存管理则可以更快地利用新工艺节点带来的好处。当两者被集成在同一颗Die上时整个芯片的迭代速度被其中最慢的模块通常是SerDes拖累。通过将SerDes解耦为独立的Chiplet数字核心和SerDes可以按照各自最优的节奏进行迭代和升级。数字核心可以追逐最先进的工艺以获得更高的密度和能效而SerDes Chiplet则可以基于一个更稳定、成熟的工艺节点进行多代产品的优化在性能、功耗和成本之间取得最佳平衡。这大大降低了设计风险也加快了整体技术创新的步伐。注意这里存在一个关键的权衡。评论中提到的观点非常尖锐如果Serdes Chiplet长期采用落后于数字核心的工艺可能会导致其在接口的功率和性能上失去竞争力尤其是在对能效比极其敏感的超大规模云场景中。因此成功的Chiplet策略不是简单地“用旧工艺做SerDes”而是精心规划不同Chiplet的工艺路线图确保在系统层面保持竞争力。3. Chiplet架构如何重塑以太网交换芯片设计理解了“为什么”要变我们再来深入看看“怎么变”。Chiplet并非一个全新的概念在CPU如AMD的EPYC、Ryzen系列和GPU领域已经取得了巨大成功。现在这股风潮正吹向网络芯片。3.1 从“巨核”到“多芯片模块”的范式转移传统的巨核交换机ASIC我们可以把它想象成一个高度集成的“片上城市”。所有功能街区——行政区控制平面、工业区数据平面、交通枢纽SerDes、仓库缓存——都挤在同一片狭小的土地上通过超高速的市内道路片上互联网络NoC连接。而Chiplet架构则像是一个“城市群”。核心商务区高性能计算核心在一个岛上物流港口高速SerDes在另一个岛上工业基地内存、缓存在第三个岛上。这些岛屿之间通过超宽、超低延迟的跨海大桥先进封装互联技术连接在一起如硅中介层Silicon Interposer、嵌入式多芯片互连桥接EMIB或扇出型晶圆级封装Fan-Out WLP。对于以太网交换芯片这种“城市群”模式的具体体现可能是一个或多个交换核心Chiplet采用最先进的工艺如3nm专注于实现高密度、低功耗的数据包处理流水线、流量管理器和查表引擎。这是芯片的“大脑”。多个I/O Chiplet包含数十个高速SerDes通道可能采用成本更优的成熟工艺如6nm或7nm。这些Chiplet专门负责与外部物理层器件如光模块、DAC铜缆通信。可能独立的存储/缓存Chiplet如果集成了大容量HBM高带宽内存或超大型片上缓存可能会将其作为独立的Chiplet使用最适合存储单元的工艺。3.2 关键使能技术先进封装与高速互连Chiplet架构的成功高度依赖于连接各个Chiplet的“跨海大桥”的质量。这主要涉及两大领域先进封装技术这是物理基础。硅中介层Silicon Interposer是目前高性能计算领域的主流选择。它是一块面积较大的、无源的硅片上面集成了高密度的微凸块和再布线层RDL为放置在其上的多个Chiplet提供远超传统PCB板级互连的带宽和密度。其他技术如台积电的CoWoSChip on Wafer on Substrate、英特尔的EMIB和Foveros都在不断演进目标是提供更高的互连密度、更低的功耗和更低的延迟。高速片间互连协议这是逻辑标准。为了在Chiplet之间高效通信需要定义物理层、链路层和协议层的标准。目前业界正在积极推动的标准包括UCIeUniversal Chiplet Interconnect Express这是一个由英特尔、AMD、Arm、台积电、三星、日月光等巨头共同发起的开放标准旨在打造一个开放的Chiplet生态系统。它定义了物理层、Die-to-Die适配器和协议栈目标是实现不同厂商Chiplet之间的互操作性。专有互连如英特尔的AIBAdvanced Interface Bus、博通的BCM可能用于其内部Chiplet互连等。在UCIe成熟和普及之前许多厂商会使用自己的私有协议来优化性能和功耗。对于以太网交换芯片片间互连的带宽要求是天文数字。一个25.6 Tbps的交换芯片其内部数据交换带宽可能需要达到每秒数十Tb甚至更高。因此用于连接交换核心Chiplet和I/O Chiplet的互连必须具有极高的带宽密度Gbps/mm和极低的能耗效率pJ/bit。3.3 可编程性的深度融合P4与可编程流水线解耦不仅仅是物理上的也是功能上的。传统的固定功能ASIC虽然高效但一旦流片其数据包处理逻辑就固化了难以适应新的网络协议或功能需求。新兴的玩家如被英特尔收购前的Barefoot Networks其Tofino芯片开创了完全可编程的交换芯片范式。他们使用P4Programming Protocol-independent Packet Processors语言允许网络工程师像写软件一样定义数据包的处理流程。这种可编程性使得同一款硬件可以服务于多种角色可以是标准的以太网交换机也可以是负载均衡器、网络遥测探针甚至是计算存储分离架构中的存储控制器。在Chiplet架构下这种可编程性可以被更灵活地实现。例如可以设计一个“可编程加速Chiplet”专门处理特定的、对性能要求极高的网络功能如正则表达式匹配用于入侵检测、加密解密。这个Chiplet可以独立于主交换核心进行设计和升级。主交换核心则提供通用的、高性能的转发能力。通过软硬件协同设计将最常用、最通用的功能硬化以追求极致性能将需要灵活性的功能通过可编程单元实现从而达到性能与灵活性的最佳平衡。4. 对产业格局的潜在冲击与新玩家的机会技术路线的变迁往往会引发市场格局的洗牌。以太网交换芯片向Chiplet架构的演进正在创造新的战场和游戏规则。4.1 挑战传统巨头的护城河博通和思科其Silicon One系列长期以来统治着高端数据中心交换芯片市场。他们的护城河在于1庞大的研发投入和长期积累的IP组合2与顶级代工厂如台积电的深度绑定和巨大采购量带来的工艺优先权3完整的软件生态和客户支持体系。Chiplet架构在一定程度上降低了设计门槛。初创公司可以不必从头设计一颗包含所有模块的、工艺最先进的巨核芯片。他们可以聚焦核心价值专注于设计最具差异化的部分比如一个革命性的可编程流水线架构或者一个超高能效的流量调度算法。利用成熟IP通过UCIe等接口集成第三方经过验证的、高性能的SerDes Chiplet或内存控制器Chiplet减少研发风险和周期。采用混合工艺为主力数字逻辑部分采用较新的工艺以获得性能优势为模拟/混合信号部分采用成熟工艺以控制成本和风险。这使得资金规模相对较小的初创公司有可能在某个细分领域如面向AI/ML的极低延迟交换、面向云原生的可观测性网络推出具有竞争力的产品而不需要直接在全产品线上与巨头正面抗衡。4.2 催生新的价值链与商业模式传统的价值链是线性的IP供应商 - 芯片设计公司Fabless - 晶圆代工厂Foundry - 封装测试厂 - 设备制造商OEM/ODM - 最终用户。Chiplet生态下价值链可能变得更加网状和专业化Chiplet供应商可能会出现专门设计并销售特定功能Chiplet的公司比如“全球最好的400G SerDes Chiplet供应商”或“超低延迟片上网络NoC互连Chiplet供应商”。这类似于今天的IP核市场但交付物从软IP代码变成了硬IP物理芯片裸片。系统集成与架构设计公司这类公司的核心能力不再是晶体管级设计而是系统级架构定义、Chiplet选型、集成、先进封装设计以及系统级验证。他们负责将来自不同供应商的“最佳拍档”Chiplet组合成一个最优的系统级解决方案。封装与测试服务升级OSAT外包半导体组装和测试厂商的角色将变得更加关键。他们需要提供更复杂的2.5D/3D封装解决方案并发展出针对多芯片模块的协同测试和良率管理能力。商业模式也可能从“卖完整芯片”转向“卖Chiplet组合设计服务”或者出现基于Chiplet的“设计平台”订阅模式。4.3 软件定义硬件的终极形态解耦的终点可能是网络功能的完全软件定义。我们可以设想这样一个未来云服务商或大型企业不再购买固定的交换机硬件而是购买一个由标准化的“计算Chiplet”、“交换Chiplet”、“加速Chiplet”等通过高速互连背板组成的硬件平台。当需要部署一个新的网络功能比如一种新的拥塞控制算法或一种特定的安全过滤策略时网络运维人员可以通过软件界面从“Chiplet功能市场”中选择或租用相应的“加速Chiplet”镜像将其动态加载到硬件平台的可编程区域或者直接通过高速网络将物理Chiplet资源调度到所需的位置。这实现了真正的“硬件即代码”将基础设施的敏捷性提升到一个全新的高度。当然这还是一个远景面临诸多技术和管理上的挑战但Chiplet架构无疑是迈向这个方向的关键一步。它使得硬件资源的粒度变得更细可组合性变得更强。5. 当前实践、挑战与未来展望理论很美好但现实落地情况如何目前我们已经能看到一些早期的实践者和明确的挑战。5.1 行业先行者与早期产品虽然完全商业化的、基于Chiplet的以太网交换芯片尚未大规模普及但趋势已经非常明显英特尔收购Barefoot Networks后一直在推动其可编程交换架构。虽然其Tofino系列目前仍是巨核设计但其在封装技术和异构计算方面的积累如EMIB、Foveros使其在向Chiplet架构迁移时有天然优势。英特尔很可能将可编程数据平面作为核心Chiplet搭配其先进的SerDes和封装技术。博通作为市场领导者博通不可能忽视这一趋势。尽管其主力产品如Trident和Tomahawk系列仍是巨核但博通拥有业界最全的IP组合和最先进的封装技术如其用于AI加速芯片的2.5D封装。它很可能采取“双轨制”一方面继续优化巨核设计以服务主流市场另一方面秘密研发Chiplet-based的下一代产品以应对特定挑战或客户需求。初创公司原文提到的Innovium已被Marvell收购和Nephos等作为市场挑战者更有动力采用创新架构来实现差异化。它们可能会更早地尝试将部分功能模块化或者与拥有先进封装能力的伙伴合作推出更具灵活性的解决方案。云巨头自研亚马逊AWS的Nitro系统、谷歌的TPU等已经展示了云厂商自研芯片的能力和决心。对于网络他们同样有强烈的动机去定制符合自身业务需求的芯片。采用Chiplet架构他们可以更灵活地集成自家研发的特定加速单元如加密、压缩同时利用商业化的通用Chiplet从而在控制成本的同时获得独特的竞争优势。5.2 面临的主要工程与商业挑战向Chiplet架构转型绝非易事它带来了全新的复杂性系统级设计与验证的复杂性爆炸当多个Chiplet来自不同设计团队、甚至不同厂商时确保它们在一起能正确、高效、可靠地协同工作是一个巨大的挑战。这包括信号完整性、电源完整性、热管理、时钟同步、错误处理、测试访问机制等。系统级验证的难度和成本会急剧增加。互连标准与生态的成熟度UCIe等开放标准是构建繁荣生态的基础但目前仍处于发展早期。不同厂商的Chiplet在性能、功耗、接口协议上的兼容性需要经过大量测试。在生态完全成熟之前厂商可能更倾向于采用垂直整合或与少数伙伴深度绑定的模式这会在一定程度上限制灵活性的优势。成本结构的重新评估虽然Chiplet可以通过使用成熟工艺来降低部分模块的制造成本但先进封装如硅中介层本身的成本非常高昂。此外多颗小芯片的测试成本、封装良率损失、以及额外的接口电路如PHY层都会增加总体成本。只有当系统性能提升或灵活性带来的价值足以覆盖这些额外成本时Chiplet方案才有经济意义。目前这在高性能计算和顶级数据中心网络中正在成为现实。供应链与可靠性管理采购和管理来自多个供应商的Chiplet比管理单一芯片要复杂得多。这涉及到质量保证、生命周期管理、备件供应等一系列问题。对于要求极高可靠性的数据中心基础设施来说这是一个需要严肃对待的挑战。软件与工具链的适配现有的芯片设计工具EDA、驱动程序和操作系统大多是针对单颗芯片优化的。需要新的工具来支持多芯片系统的协同设计、仿真和验证。软件栈也需要能够识别和调度分布在多个Chiplet上的硬件资源。5.3 未来三到五年的技术演进展望基于当前的趋势我们可以对近未来的发展做一些预测从“封装内的集成”到“封装上的集成”初期Chiplet可能通过2.5D封装如硅中介层集成在同一基板上。下一步会向3D堆叠发展将存储、计算或I/O Chiplet垂直堆叠在交换核心之上进一步缩短互连距离提升带宽和能效。光电共封装CPO与硅光技术的融合这是另一个并行且相关的革命性趋势。将光引擎激光器、调制器、探测器与交换芯片在封装层面紧密集成可以极大降低电互连的功耗和距离限制。Chiplet架构非常适合CPO可以将硅光Chiplet作为一个独立的模块与电子交换Chiplet通过超短距SerDes如XSR、USR连接。这将为实现51.2Tbps及更高速率的交换机铺平道路。领域专用架构DSA的兴起随着AI、高性能计算、边缘计算等不同领域对网络的需求日益分化通用交换芯片将难以满足所有需求。Chiplet架构使得创建“领域专用交换芯片”变得可行。例如针对AI集群的交换芯片可以集成高带宽、低延迟的Collective Communication加速Chiplet针对边缘网关的芯片可以集成更强的安全加密Chiplet。开放生态与“芯片市场”的雏形如果UCIe等标准获得广泛成功我们可能会看到类似手机应用商店或云市场的“Chiplet市场”出现。芯片设计公司可以从中选购经过认证的、即插即用的功能Chiplet大幅加速产品开发进程。这将是半导体行业走向更加开放和模块化的里程碑。我个人的体会是我们正处在一个网络芯片设计范式转移的起点。就像当初x86架构的开放生态最终战胜了众多封闭的RISC架构一样更加开放、模块化的Chiplet生态虽然初期面临整合的阵痛但长期来看其带来的创新速度、灵活性和成本优势可能会对现有相对封闭的巨头主导格局产生深远影响。对于硬件工程师和架构师来说这意味着需要从传统的“深水区”晶体管级设计更多地转向系统级架构、互连协议和软硬件协同设计的“新大陆”。这场由数据中心需求驱动的、始于以太网交换芯片的变革其涟漪最终将扩散到整个计算产业。