Transformer 架构深度解析,Encoder 与 Decoder 的工作差异及演进
在深度学习序列建模的演进史上,RNN 及其变体 LSTM、GRU 曾长期占据统治地位。然而,随着数据规模的爆炸式增长,传统循环神经网络的局限性日益凸显:它们必须按时间步顺序处理数据,无法利用 GPU 进行并行加速,导致训练效率低下;更致命的是,面对长序列时,信息在层层传递中逐渐衰减,难以捕捉远距离的依赖关系。2017 年,Transformer 架构的横空出世彻底改变了这一局面。它完全抛弃了递归与卷积结构,仅依靠自注意力机制(Self-Attention)便实现了对全局上下文的高效建模,不仅解决了长距离依赖难题,更将并行计算能力发挥到了极致。引言本文旨在为刚接触深度学习序列建模的初学者,系统梳理从 RNN 到 Transformer 再到 Decoder Only 架构的演进脉络。你将了解到 Encoder 与 Decoder 的核心分工、自注意力机制的计算原理,以及为什么现代大语言模型普遍选择 Decoder Only 架构。通过本文,你将建立起对 Transformer 系列架构的全局认知,为后续学习更复杂的模型打下坚实基础。Encoder 与 Decoder 的核心分工原始 Transformer 采用经典的 Encoder-Decoder 架构,专为序列到序列(Seq2Seq)任务设计,如机器翻译。虽然两者都基于自注意力机制,但在结构设计与功能定位上存在显著差异。Encoder:双向上下文的深度提取自注意力(Scale