大模型入门必看：小白程序员轻松掌握LLM核心知识，附收藏！

张

张建站

2026/5/20 2:26:11

10分钟阅读

本文介绍了主流开源大语言模型体系包括Prefix Decoder、Causal Decoder和Encoder-Decoder系的区别和特点。详细解释了Attention Mask、大模型训练目标如最大似然估计和去噪自编码器、涌现能力的原因、LLMs采用Decoder-only结构的原因、Layer normalization的不同类型及其在LLMs中的位置区别、激活函数如GeLU、Swish、GLU及其变体、Attention的优化方向和变体、Multi-Query Attention和Grouped-query Attention的概念和优势以及FlashAttention和并行Transformer Block等技术。文章旨在帮助初学者理解大模型的基础知识为面试和实际应用打下坚实基础。1、主流开源模型体系目前主流的开源大语言模型体系大致分为三类Prefix Decoder 系输入端双向注意力类似 Encoder输出端单向注意力类似 Decoder代表模型ChatGLM、ChatGLM2、U-PaLM特点prefix 部分 token 互相可见属于 Encoder-Decoder 折中方案缺点训练效率低Causal Decoder 系注意力严格自回归单向注意力即从左到右代表模型LLaMA 系列及衍生物特点预训练和下游任务完全一致zero-shot 表现最好优点训练效率高、zero-shot 能力强具备涌现能力缺点输入语义理解能力相对不足Encoder-Decoder 系输入端双向注意力更充分的语义理解输出端单向注意力生成时遵循因果性代表模型T5、Flan-T5、BART特点在理解类任务表现好缺点长文本生成表现差训练效率低2、Attention Mask 的区别设输入序列长度为 nattention mask 矩阵 M ∈ ℝⁿˣⁿ设输入序列长度为 nattention mask 矩阵 M ∈ ℝⁿˣⁿ*1Encoder双向注意力*所有 token 都能互相看到语义理解。*2Causal Decoder单向注意力*当前位置只能看到自身与之前的 token因果律。*3Prefix Decoder折中*3、大模型训练目标1最大似然估计MLE根据已出现的 token预测下一个 token作文如下**Causal Decoder**在所有 token 上计算损失**Prefix Decoder**仅在输出部分计算损失2去噪自编码器Denoising Autoencoder随机替换/打乱文本段让模型恢复原始文本完形如下其中 x̃ 表示被随机破坏的输入代表模型T5、GLM-130B难点实现更复杂训练效率更低4、涌现能力的原因猜测复杂任务由多个子任务组成子任务性能随模型规模平滑提升但整体任务指标可能出现“跳变”表现为涌现能力。模型容量与表示能力的非线性增强随着参数量增加模型可能跨越某种“能力门槛”。比如我们假设某个任务 T 有 5 个子任务 Sub-T 构成每个 sub-T 随着模型增长指标从 40% 提升到 60%但是最终任务的指标只从 1.1% 提升到了 7%也就是说宏观上看到了涌现现象但是子任务效果其实是平滑增长的。5、为何大多数 LLM 采用 Decoder-only 结构原因如下Zero-shot 能力强无需大量标注数据也能在自监督学习下发挥最好性能。训练效率高与下游推理完全一致工程更简洁。理论上更优Encoder 的双向注意力在生成任务中可能引入低秩问题削弱表达能力。参数利用效率同等参数量下Encoder-Decoder 结构分摊了参数Decoder-only 全部用于生成更高效。6、Layer normalization1Layer Norm如下**μ**特征的均值**σ**标准差归一化的缩放因子**γ**可训练的缩放参数**β**可训练的偏移参数**ε**防止除零的小常数Layer Norm 会对输入的每个 token 向量按维度标准化使其均值为 0、方差为 1然后再通过 γβ 学习恢复合适的分布。2RMS NormRMSNorm 移除了均值项只保留均方根 (Root Mean Square)如下无 β 偏移项只保留缩放参数 γ计算更快对训练稳定性也有帮助RMS Norm 只控制输入的尺度scale不调整均值因此更轻量常用于大型模型如 GPT-3 变体、PaLM。RMS Norm 简化了 Layer Norm 去除掉计算均值进行平移的部分。对比 LNRMS Norm 的计算速度更快。效果基本相当甚至略有提升。3Deep NormDeep Norm 主要是为了解决训练非常深的 Transformer 时梯度不稳定的问题比如 100 层执行 Layer Norm 之前up-scale 了残差连接alpha1初始化阶段 down-scale 了模型参数beta1残差形式其中 α 1/√(2N)N 为层数。在层与层之间的残差路径上控制信息流强度。这样可以避免残差累加过大导致梯度爆炸。import torch.nn as nndef deepnorm_init(w): if any(name in w.name for name in [ffn, v_proj, out_proj]): nn.init.xavier_normal_(w, gainmath.sqrt(2.0)) elif any(name in w.name for name in [q_proj, k_proj]): nn.init.xavier_normal_(w, gain1.0)LN 在 LLMs 中的不同位置区别Post-LN**位置**layer norm 在残差链接之后**缺点**Post-LN 在深层的梯度范式逐渐增大导致使用 post-LN 的深层 transformer 容易出现训练不稳定的问题输出质量高深层训练难Pre-LN**位置**layer norm 在残差链接中**优点**相比于 Post-LNPre-LN 在深层的梯度范式近似相等所以使用 Pre-LN 的深层 transformer 训练更稳定可以缓解训练不稳定问题**缺点**相比于 Post-LNPre-LN 的模型效果略差深层稳定略牺牲输出质量Sandwich-LN**位置**在 pre-LN 的基础上额外插入了一个 layer norm**优点**Cogview 用来避免值爆炸的问题**缺点**训练不稳定可能会导致训练崩溃。极深防爆普通训练易崩LLMs 各模型分别用了哪种 Layer normalization7、LLMs 激活函数FFN前馈层基本计算公式如下输入向量 x ∈ ℝᵈ权重W₁ ∈ ℝᵈˣᵈᶠᶠW₂ ∈ ℝᵈᶠᶠˣᵈ偏置b₁, b₂激活函数f(·) 可以是 ReLU / GeLU / Swish 等中间维度dᶠᶠ 4d通常 Transformer 默认 4 倍扩展FFN 是在每个 token 上独立应用的两层 MLP。先升维扩展到更高维度空间再激活再降维回去。GeLU 激活函数如下特点平滑版本的 ReLU不是硬性截断而是概率化地保留输入。效果对小值衰减对大值接近线性。让模型既保留微弱信号又对强信号线性响应从而提高表达力和训练稳定性。应用BERT、GPT 系列广泛采用 GeLU。Swish 激活函数如下特点平滑、非单调激活函数比 ReLU/GeLU 更灵活。效果根据输入大小平滑放大或抑制信号使信息流更灵活且梯度传播更稳定。特殊情况当 β1 时就是常见的 Swish。应用在 EfficientNet、部分 LLM 变种中使用。GLU门控线性单元如下⊗ 表示逐元素乘法W, V ∈ ℝᵈˣᵈᶠᶠ输出由“值部分”和“门控部分”组合而成。用 GLU 替换 FFN 的写法引入门控机制可以选择性地传递信息类似 LSTM 的思想。允许重要信息通过提高表达能力同时控制计算冗余。GeLU-GLU 变体如下值路径xW 经过 GeLU 激活门路径xV 直接作为调制因子应用T5Google 的大规模预训练模型采用 GeGLU。把平滑激活和门控结合在 FFN 中既筛选重要特征又可调节信息流让模型表达力增强且训练稳定。Swish-GLU 变体如下值路径xW 经过 Swish 激活门路径xV 直接作为调制因子应用PaLMGoogle 超大规模 LLM采用 SwiGLU。将柔性调节Swish与门控结合使 FFN 在保留细微信号的同时有选择性地传递信息优化梯度流和训练稳定性尤其适合超大模型。参数量比较**标准 FFN**2 个权重矩阵W₁, W₂中间维度通常是 4d。**GLU 变体**需要 3 个权重矩阵W, V, W₂为了控制参数量中间维度通常改为 (2/3) · 4d 8/3 d。这样总体参数和计算量与标准 FFN 大致持平。LLMs 中常用的激活函数选择8、Attention传统 Attention 存在哪些问题传统 Attention 存在上下文长度约束问题传统 Attention 速度慢内存占用大Attention 优化方向提升上下文长度加速、减少内存占用Attention 变体有哪些**稀疏 attention。**将稀疏偏差引入 attention 机制可以降低了复杂性**线性化 attention。**解开 attention 矩阵与内核特征图然后以相反的顺序计算 attention 以实现线性复杂度**原型和内存压缩。**这类方法减少了查询或键值记忆对的数量以减少注意力矩阵的大小**低阶 self-Attention。**这一系列工作捕获了 self-Attention 的低阶属性**Attention 与先验。**该研究探索了用先验 attention 分布来补充或替代标准 attention**改进多头机制。**该系列研究探索了不同的替代多头机制。Multi-head Attention 存在什么问题**训练**不会显著影响训练过程训练速度不变会引起非常细微的模型效果损失**推理**反复加载 KV cache , 导致内存开销大性能是内存受限介绍 Multi-Query AttentionMulti-Query Attention 在所有注意力头上共享 key 和 value。对比 Multi-head Attention 和 Multi-Query Attention**Multi-head Attention**每个注意力头都有各自的 query、key 和 value。**Multi-query Attention**在所有的注意力头上共享 key 和 value。**PaLM**直接使用 Multi-query Attention保持 hidden size 和 FFN 结构不变。**Falcon**为了保持总参数量一致将隐藏维度从 4096 增大到 4544多余参数分配给 Attention 和 FFN。**ChatGLM2-6B**采用 MQA / GQA 混合策略将 FFN 中间维度从 11008 增加到 13696多余参数分配给 FFN。Multi-Query Attention 这样做的好处是什么减少 KV cache 的大小减少显存占用提升推理速度。有哪些模型是使用 Multi-Query Attention代表模型PaLM、ChatGLM2、Falcon 等什么是 Grouped-query Attention介于 multi head 和 multi query 之间多个 key 和 value。有哪些大模型使用 Grouped-query AttentionChatGLM2LLaMA2-34B/70B 使用了 Grouped query attention。FlashAttention**核心**用分块 softmax 等价替代传统 softmax**优点**节约 HBM高效利用 SRAM省显存提速度**代表模型**Meta 推出的开源大模型 LLaMA阿联酋推出的开源大模型 Falcon 都使用了 Flash Attention 来加速计算和节省显存**关键词**HBM、SRAM、分块 Softmax、重计算、Kernel 融合。并行 transformer block用并行公式替换了串行提升了 15%的训练速度。在 8B 参数量规模会有轻微的模型效果损失;在 62B 参数量规模就不会损失模型效果。Falcon、PaLM 都使用了该技术来加速训练如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

Thing.Core：面向嵌入式IoT的声明式C++框架

1. Thing.Core 框架概述：面向嵌入式 IoT 开发的声明式抽象层Thing.Core 是一个专为物联网终端设备快速开发而设计的轻量级 C 框架，其核心设计理念是生产力优先于极致性能。这一取舍在当前 ESP32、ESP8266、nRF52840 等高性能 MCU 广泛普及的背景下具有明…...

2026/5/20 11:54:48 阅读更多 →

KUKA机器人与伏能士焊机通讯配置

⒈硬件准备⑴伏能士焊机，焊机型号：TPS 400i，支持EtherCAT协议；⑵伏能士焊机说明文件“ESI_FRONIUS_FB_INSIDE_ETHERCAT GENERIC REVx00000009”；⑶库卡机器人，机器人型号：KR8R2010-2&#xff1b…...

2026/5/18 20:01:23 阅读更多 →

BME280 I²C地址固化驱动：面向Adafruit模块的嵌入式优化实践

1. BME280传感器驱动库深度解析：面向Adafruit模块的IC地址固化设计与嵌入式工程实践1.1 项目定位与工程背景BME280是博世（Bosch Sensortec）推出的高精度环境传感器，集成温度、湿度和气压三参数测量功能，采用MEMS微机电…...

2026/5/19 10:57:14 阅读更多 →

大彩串口屏在非接触测温仪HMI设计中的实战应用与优势解析

1. 项目概述：串口屏如何重塑非接触测温仪的用户体验在非接触红外测温仪这个看似传统的行业里，用户体验的“最后一公里”往往决定了产品的成败。几年前，我们团队接手一个手持式红外测温仪的项目升级，客户反馈的核心痛点非常集中&am…...

2026/5/19 13:56:06 阅读更多 →

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒

在macOS上运行Windows程序的终极指南：使用Whisky轻松突破系统壁垒【免费下载链接】Whisky A modern Wine wrapper for macOS built with SwiftUI 项目地址: https://gitcode.com/gh_mirrors/wh/Whisky 想要在Apple Silicon Mac上无缝运行Windows专属软件和游…...

2026/5/19 9:03:43 阅读更多 →