从Hot Chips 2016看芯片设计趋势:从通用计算到异构与专用架构
1. 从“性能至上”到“百花齐放”我眼中的Hot Chips变迁作为一名在半导体行业摸爬滚打了十几年的老兵我几乎每年都会关注Hot Chips的动向。如果说早年的Hot Chips是一场“武林大会”各家比拼的是CPU主频、核心数量这些硬桥硬马的“内力”那么近几年这个大会已经演变成了一个包罗万象的“科技嘉年华”。2016年那届尤其让我印象深刻它像是一个分水岭清晰地标志着芯片设计的重心从单纯的“更快、更强”的通用计算转向了为特定场景、特定任务而生的“专精特新”。这不仅仅是技术路线的变化更是整个行业思维模式的转型。如果你也关心芯片的未来想知道下一个爆发点在哪里那么回顾这场会议的细节或许能给你带来不少启发。无论是资深的架构师、寻找方向的创业者还是对硬科技充满好奇的学生都能从中看到一幅正在徐徐展开的产业全景图。2. 核心议题解析为何“多样性”成为新常态2.1 传统巨头的守正与出新即便议题变得多样传统CPU巨头们依然是舞台中央不可或缺的主角。2016年英特尔带来了其酷睿系列的明星——Skylake架构的深度解析。当时看Skylake不仅是制程和微架构的升级更关键的是它在能效比和集成显卡性能上的大幅跃进这其实已经暗示了未来PC芯片必须兼顾高性能与低功耗的趋势。IBM则展示了POWER9这款为大型数据中心和AI负载设计的处理器其核心在于强大的多线程能力和前所未有的I/O带宽如PCIe 4.0和NVLink它瞄准的是云计算和科学计算的高端市场。这些演讲固然精彩但更值得玩味的是它们背后的焦虑通用CPU的性能提升曲线正在放缓单靠“挤牙膏”式的迭代已经无法满足所有需求。这其中最牵动人心的莫过于AMD的Zen架构。在经历了一段时期的沉寂后所有人都盯着AMD能否靠Zen打一场翻身仗。会议上的披露虽然只是冰山一角但关键信息已经足够震撼同步多线程SMT的回归、全新的缓存体系结构、以及更高的每时钟周期指令数IPC承诺。AMD押注的是一种更均衡的设计哲学不再盲目追求单核高频而是在核心数、能效和IPC之间寻找最佳平衡点。事后证明Zen的成功不仅拯救了AMD更以“鲶鱼效应”激活了整个x86市场让消费者和行业都受益匪浅。这给我们一个启示在成熟市场颠覆往往来自于对既有设计范式的重新思考和精准取舍。2.2 新兴领域的全面崛起如果说传统CPU是“面”上的功夫那么2016年Hot Chips上涌现的众多专题则是在各个“点”上进行爆破。最突出的趋势有三个机器学习的硬件化、感知计算的普及以及超低功耗的极致追求。机器学习已经从纯粹的软件算法问题迅速演变为一个硬件定义的问题。英伟达的Pascal GPU架构是当时的明星它通过采用16nm FinFET工艺和NVLink高速互联大幅提升了深度学习训练的性能和规模。但更有趣的是像Cadence、CEVA这样的IP公司以及Deephi地平线这样的初创企业他们展示的是针对神经网络推理进行高度优化的专用处理器ASIC或可编程架构。这些芯片的特点是将能效比TOPS/W作为首要指标因为它们要部署在摄像头、汽车等边缘设备上。这揭示了一个深层逻辑当一种计算范式变得足够普遍和关键时为之定制专用硬件就成了必然选择这也是后来AI芯片创业浪潮的先声。感知计算是另一个热点。微软为HoloLens开发的定制芯片集HPU堪称典范。它将多个计算机视觉处理单元、一个DSP和一个传统CPU内核集成在一起专门用于处理来自传感器的空间映射、手势识别数据。其设计精髓在于“异构计算”和“近传感器处理”将特定的计算任务卸载到最擅长的硬件单元上并尽可能在数据产生的地方完成处理以减少数据搬运的功耗和延迟。这与Movidius后被英特尔收购展示的视觉处理单元VPU以及Sentons的超声波力传感器思路一脉相承。芯片不再只是待在设备内部的“大脑”而是正在成为延伸感官、与现实世界交互的“神经末梢”。超低功耗领域则出现了更激进的探索。Psikick公司展示的利用能量采集技术驱动、无需电池的无线SoC在当时看来非常前沿。它挑战了传统芯片设计的底线当能源不是来自稳定的电源而是来自环境中的射频、光热或振动时芯片的功耗必须低至微瓦甚至纳瓦级并且要具备极快的唤醒和休眠能力。这类技术虽然当时离大规模商用尚远但它指明了物联网IoT终极形态的一个方向——真正无处不在、自供电的智能节点。2.3 系统级创新的关键角色芯片的进化从来不是孤立的。2016年Hot Chips上关于内存、互连和封装等系统级技术的讨论占据了重要篇幅。高带宽内存HBM及其接口技术是焦点之一。随着GPU和AI处理器对数据吞吐量的需求爆炸式增长传统GDDR内存的带宽和能效逐渐成为瓶颈。HBM通过2.5D封装如硅中介层将内存堆叠在处理器旁边实现了远超传统方式的带宽和更低的单位比特功耗。这不仅仅是换一个内存类型那么简单它要求处理器设计时就必须考虑与HBM的物理和逻辑接口牵一发而动全身。英特尔展示的Omni-Path 4.8 Tbps交换芯片ASIC则代表了高性能计算HPC集群互连技术的巅峰。在高性能计算中成千上万个计算节点如何高效、低延迟地通信直接决定了整个系统的实际效率。这种专用交换芯片的设计涉及到极其复杂的路由算法、流量控制、错误恢复机制以及信号完整性等物理层挑战。它说明了一个问题当计算规模达到一定程度后互连网络本身就成了需要专门芯片去优化的“核心部件”。同样百度提出的“软件定义加速器”用于分布式大数据分析其思路也是将整个数据处理流水线包括网络、存储和计算进行协同设计和硬件加速。3. 从会议看产业技术融合与边界模糊3.1 计算范式的融合与碰撞回顾2016年的议题我们能清晰地看到几条技术路线的交汇。首先是“通用”与“专用”的边界变得模糊。传统的CPU在增加AI加速指令集如不久后出现的AVX-512 VNNI而专用的AI处理器如NPU也在集成通用的控制核心。这种“CPUXPU”的异构模式成为后来从云端到终端的主流架构。其次是“计算”与“感知”的融合。像HoloLens HPU这样的芯片本身就是一个微型的异构计算系统同时处理着计算几何计算和感知图像信号处理任务。芯片设计者必须同时精通计算机体系结构、数字信号处理乃至传感器技术。另一个有趣的碰撞是“高性能”与“超低功耗”设计理念的相互借鉴。为服务器设计的高性能芯片开始极度关注能效比Performance per Watt引入了许多源自移动芯片的动态电压频率调节DVFS、时钟门控技术。而为物联网设计的超低功耗芯片也开始追求在 bursts突发工作期间提供可观的计算能力其微架构设计反而需要一些高性能设计中的精简和高效思想。这种跨领域的技术流动极大地丰富了芯片设计师的工具箱。3.2 产业生态的重构Hot Chips议题的多样性直接反映了半导体产业价值链的重构。过去产业是垂直的英特尔、AMD自己设计、自己制造IDM。而现在产业变得水平化ARM提供CPU IPImagination或后来的ARM Mali提供GPU IPSynopsys/Cadence提供EDA工具和接口IP台积电/三星负责制造最后再由苹果、华为、高通这样的公司集成设计成SoC。2016年大会上ARM发布新GPU架构和CPU扩展Mediatek展示十核Helio X20正是这种水平化生态的生动体现。这种生态使得创新门槛降低初创公司如Movidius、Invisage能够专注于某一特定领域的芯片设计如视觉处理、新型图像传感器而不需要从头打造一切。这也解释了为什么会议上会出现如此多来自不同背景的玩家有互联网巨头Google、百度为自身业务定制芯片有学术机构清华大学探索前沿架构也有初创公司带来颠覆性的点子。芯片行业从一个由少数巨头主导的俱乐部变成了一个百花齐放、充满活力的创新集市。注意这种水平化生态也带来了挑战如系统级优化的复杂性增加、供应链安全风险、以及知识产权整合的难度。设计一款成功的SoC不仅需要精湛的芯片设计能力更需要强大的系统定义、软件协同和生态整合能力。4. 给从业者与学习者的启示4.1 技能树的扩展方向对于芯片行业的工程师和学生来说2016年Hot Chips预示的技能需求变化非常明显。首先领域专用架构DSA知识变得至关重要。你不能只懂CPU或GPU还需要了解AI加速器、图像信号处理器ISP、数字信号处理器DSP甚至特定于射频RF或传感器的模拟/混合信号电路的设计原理。其次系统级视角不可或缺。必须理解芯片如何与新型内存如HBM、高速互连如PCIe CXL、以及封装技术协同工作。再次软硬件协同设计能力从“加分项”变成了“必选项”。尤其是对于AI、网络等领域的芯片编译器、驱动、运行时库的性能直接决定了芯片的最终表现。我个人的体会是一个优秀的芯片架构师现在更像一个“导演”。他不需要亲自操作每一台摄像机电路设计但必须深刻理解剧本算法/应用、演员特长各类IP核、舞台条件工艺、封装、功耗预算并能统筹全局最终拍出一部好电影一款成功的芯片。因此保持广泛的技术涉猎和深刻的应用场景理解比单纯钻研某个狭窄的技术点更为重要。4.2 创新机会的寻找从这场会议的多样性中我们可以嗅到一些长期的创新机会。存算一体虽然当时Micron的3D XPointCrosspoint内存细节未公布但新型非易失性内存与计算单元的结合一直是突破“内存墙”的梦想路径。Chiplet芯粒与先进封装当单芯片集成的成本和难度激增时将大芯片拆分成多个小芯片Chiplet通过2.5D/3D封装集成成为延续摩尔定律的重要方式。这催生了互联接口如UCIe、中介层设计、热管理等一系列新问题。超低功耗智能边缘Psikick展示的无电池SoC可能过于超前但面向IoT节点的超低功耗MCU和感知-计算一体化芯片市场正在快速增长。对于创业者或研究者我的建议是避免在已经拥挤的通用赛道如传统CPU/GPU上进行正面竞争。而是应该深入一个快速增长的垂直应用领域如自动驾驶、AR/VR、机器人、生物传感找到其中尚未被满足的、且对硬件特性非常敏感的计算需求然后为之设计极致的专用或半专用芯片。这个领域的壁垒往往不仅是技术更是对应用场景的深度理解。4.3 参会与跟踪的价值最后聊聊像Hot Chips这样的会议本身。它由IEEE赞助、志愿者运营的模式保持了相对纯粹的技术氛围和较低的参会门槛促进了学界与工业界的交流。对于从业者而言参加或紧密跟踪此类会议价值不在于立刻学到某个可以照搬的设计核心细节通常不会完全公开而在于把握风向了解顶级公司和研究机构正在为什么问题兴奋技术演进的主航道在哪里。建立网络在茶歇和社交活动中与同行交流实践中遇到的真实挑战和解决思路这往往比论文和演讲更有价值。激发灵感看到别人用不同的方法解决了类似的问题或者将A领域的技术创造性应用于B领域常常能打破自己的思维定式。芯片行业是一个周期长、投入大的行业但也是一个通过持续创新不断创造价值的行业。2016年Hot Chips所展现的“多样性”本质上是行业在物理定律和市场需求的双重驱动下迸发出的强大适应性和创造力。今天我们看到的AI芯片大战、汽车电子浪潮、Chiplet生态的兴起都能在那次会议的议题中找到最初的线索。保持好奇保持开放在这个软硬件深度结合、计算无处不在的时代芯片人的舞台正变得越来越广阔。