读懂Transformer的层次，了解大模型基石

张

张建站

2026/5/23 11:38:40

10分钟阅读

当你与 DeepSeek 对话它能够理解问题并给出恰当回答时你是否想过这种理解是如何实现的这背后源于一个经典问题如何让机器将一个序列转换为另一个序列也就是 Seq2SeqSequence-to-Sequence问题以及解决这个问题的经典架构——Transformer。Seq2Seq****本质上是一类问题的抽象描述而不是特定的模型架构就像分类问题描述的是从输入到类别标签的映射Seq2Seq 问题描述的是从一个序列到另一个序列的转换。机器翻译中将 Hello 翻译为你好文本摘要将长文章压缩为核心要点对话系统理解问题并给出回答代码生成将自然语言描述转化为程序代码都是 Seq2Seq 问题的应用。在 Transformer 出现之前业界主要使用基于 RNN 的 Encoder-Decoder 架构以翻译任务举例这种方法的思路很直观从一个起始状态开始每一步基于当前的理解状态隐状态和已生成的内容预测并生成下一个词然后更新理解状态如此循环直到生成完整的文本。但 RNN 方案存在根本性问题Encoder 阶段需要把所有信息都要压缩到固定长度的向量中由于串行处理的梯度消失问题RNN 无法捕捉到长距离的依赖关系。2017 年《Attention Is All You Need》提出了完全基于注意力机制的 Transformer 架构Transformer 沿用了经典的 Encoder-Decoder 结构但不再是时间步长的依赖。Encoder的任务是理解输入序列将其转换为富含语义信息的表示。每个 Encoder 层包含两个核心组件多头自注意力前馈神经网络。自注意力机制让每个位置都能看到序列中的所有其他位置。以句子The cat sat on the mat为例理解cat时模型会关注The确定是哪只猫理解sat时模型关注cat谁在坐和on the mat坐在哪里。多头注意力进一步扩展了这种能力每个头都有自己独立的参数矩阵用来关注不同类型的关系所有头并行计算最终将多个头的结果合并。以句子大鹏在北京的工作是计算机为例句子中会包含多种关系大鹏和工作是主谓关系北京和工作是地点关系工作和计算机是性质关系每个头关注不同的关系最终合并。数学表达式为Attention(Q,K,V) softmax(QKT/√d_k)VQKT 来计算查询和键的相似度除以 √d_k 用于缩放避免梯度消失。softmax 转化为概率分布最终乘以V根据注意力权重加权求和。在每个注意力层之后都有一个前馈神经网络FFN。这个组件流程很简单放大-筛选-压缩。在 GPT3 中FFN将 12288 维向量放大 4 倍至 49152 维应用 ReLU 激活函数进行非线性变换重新压缩回 12288 维。通过在放大过程中提取丰富特征在压缩过程中保留有用信息。这里有个 trick 点是当我们知道需要完成某种复杂的信息变换来做提取但不知道具体的数学公式时可以使用神经网络来学习这种变换。残差连接是为了解决深层网络训练中的梯度消失问题表达式为output LayerNorm(x SubLayer(x))在梯度计算时∂output/∂x ∂(x SubLayer(x))/∂x 1 ∂SubLayer(x)/∂x即使 ∂SubLayer(x)/∂x 变得很小接近 0总梯度也不会完全消失因为至少还有 1 存在。层归一化在残差连接之后执行层归一化会先将输入标准化为均值 0、标准差 1然后通过可学习参数调整到最适合的分布避免梯度消失或爆炸。层归一化的公式为LN(x) γ * (x - μ) / σ β反向传播的梯度计算时∂LN/∂x γ/σ * (1 - 1/d - (x-μ)²/(d*σ²))1 确保了梯度不会完全消失-1/d 防止梯度因为均值计算被过度缩放-(x-μ)²/(d*σ²) 用来减小梯度防止输入值偏离均值大。Decoder的结构相比 Encoder 更加复杂因为它不仅要理解还要生成它主要有三个核心组件掩码多头注意力多头交叉注意力前馈神经网络。在生成任务中模型不能偷看未来的信息。掩码机制确保每个位置只能关注当前及之前的位置这使得 Decoder 特别适合生成任务。掩码注意力在标准的自注意力实现中加上了掩码MaskedAttention(Q,K,V) softmax((QK^T Mask)/√d_k)V掩码矩阵会用负无穷来填充这样经过softmax函数掩码位置在注意力中的权重就为 0不会对结果造成影响。通过掩码模拟了真实的生成过程即使训练时有完整的目标序列也要模拟逐步生成的过程位置 i 只能关注位置 i 前面的。推理时本就逐步生成天然满足掩码的约束。交叉注意力让 Decoder 能够关注 Encoder 的输出实现了理解到生成的信息传递CrossAttention(Q_decoder,K_encoder,V_encoder)softmax(Q_decoder × K_encoder^T/√d_k) × V_encoder但要注意交叉注意力存在于早期的 Encoder-Decoder 架构现代的 Decoder-Only 模型GPT3舍弃了交叉注意力的模块只使用掩码机制。在 GPT3 中Decoder 就堆叠了 96 层每层完整的结构是多头自注意力-残差连接归一化-前馈神经网络-残差连接归一化。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

便携储能-PV/适配器自适应充电算法

简介应用于便携储能领域DC充电口（目前主流采用5521接口），DC充电口是光伏输入，兼容适配器充电模式。如何区分PV/适配器？光伏输入的特点是输入电压会随着电流变大，电压变小，当达到最大功率时&…...

2026/5/19 1:48:42 阅读更多 →

nlp_structbert_sentence-similarity_chinese-large 赋能智能客服：基于Vue的前端问句相似匹配系统

nlp_structbert_sentence-similarity_chinese-large 赋能智能客服：基于Vue的前端问句相似匹配系统 1. 引言你有没有遇到过这种情况？在某个网站的客服对话框里，输入一个问题，等了半天，要么是机器人答非所问&#xff…...

2026/5/19 4:25:23 阅读更多 →

SEER‘S EYE预言家之眼快速原型开发：Python入门者也能上手的AI游戏Demo

SEERS EYE预言家之眼快速原型开发：Python入门者也能上手的AI游戏Demo 你是不是对AI游戏开发充满好奇，但又觉得门槛太高，被各种复杂的框架和概念吓退了？别担心，今天我们就来打破这个迷思。我将带你用最基础的Python知识…...

2026/5/19 10:04:33 阅读更多 →

大彩串口屏在非接触测温仪HMI设计中的实战应用与优势解析

1. 项目概述：串口屏如何重塑非接触测温仪的用户体验在非接触红外测温仪这个看似传统的行业里，用户体验的“最后一公里”往往决定了产品的成败。几年前，我们团队接手一个手持式红外测温仪的项目升级，客户反馈的核心痛点非常集中&am…...

2026/5/22 17:17:11 阅读更多 →

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 想要在Apple Silicon Mac上无缝运行Windows专属软件和游…...

2026/5/22 17:21:26 阅读更多 →