混合 CNN-Transformer 骨干网络:局部归纳偏置与全局依赖的统一核心定位:本文同时服务于"首次接触混合架构"的工程师与"已有深度学习经验"的研究者。我们不求罗列模型,而是回答一个根本问题——为什么必须把卷积的"放大镜"与注意力的"全景窗"焊在一起?焊点在哪里?焊缝如何设计?认知检查点 1前文核心结论:纯 CNN 靠滑动窗口提取局部模式,纯 Transformer 靠全连接自注意力捕获全局关系,二者在归纳偏置与计算效率上存在互补性缺口,混合架构的涌现价值正在于填补这一缺口。1.1 问题背景与核心矛盾1.1.1 局部归纳偏置的价值想象一个分拣流水线:工人只低头看自己面前传送带上的包裹,凭借经验瞬间判断"这是易碎品"或"这是书籍"。不需要知道仓库另一端在发生什么,仅凭局部纹理、边缘、形状就能完成 90% 的识别工作。这就是卷积神经网络(CNN)的工作方式。一个 3×3 的卷积核像一台固定焦距的放大镜,在图像上滑动,每次只看 9 个像素,提取边缘、角点、纹理等局部特征。这种局部性(Locality)是一种强大的归纳偏置(Inductive Bias)——它假设相邻像素的