主要内容这篇文章将详细介绍大语言模型LLMs的工作原理。现代大语言模型大多通过不断堆叠Transformer模块构建理解Transformer工作机制是掌握大语言模型的关键。文章不涉及复杂数学内容可作入门引导。大多数现代大语言模型采用相同Transformer架构差异体现在训练数据、规模、配置选择及训练后优化上。阅读完本文读者能读懂许多现代大语言模型的论文或模型说明了解各部分架构内容。主要内容包括分词Tokenization文本字符串转换为整数序列嵌入Embeddings整数获得语义位置编码Positional encoding模型得知分词顺序注意力机制Attention分词交换信息多头注意力机制Multi - head attention模型跟踪多种关系前馈网络Feed - forward network模型大部分存储结构所在残差流Residual stream和层归一化Layer normalization使深度堆叠模型可训练预测下一个分词模型输出内容及生成循环工作方式架构与训练权重现代大语言模型的共性与差异。文中会穿插简短解释方便不同背景读者理解。分词Tokenization模型无法直接读取文本而是读取整数ID。将输入提示转换为整数序列的过程叫分词。分词器把字符串转换为整数序列每个整数对应固定词汇表中的一个条目现代大语言模型的词汇表通常包含数万到数十万条条目。分词通常是单词的子部分以提高效率。不同模型家族使用不同分词器分词器选择影响计算量和多语言覆盖等基本原理是输入文本输出整数。提示转换为整数序列后下一步是赋予整数语义。嵌入Embeddings像 1024 这样的分词ID只是行索引本身无意义。赋予其意义的是嵌入矩阵每个模型都有嵌入矩阵行数与词汇表条目数相同每行是长数字向量。分词器将整数传递给模型时模型查找对应行并使用该行向量此向量即分词的嵌入是模型训练中学习到的分词语义表示。语义相似的分词最终会有相似向量可对嵌入进行算术运算有时有意义。此阶段每个分词被嵌入替代但嵌入未表明分词位置需位置编码解决。位置编码Positional encoding普通自注意力机制无内置词序表示词序改变语义模型需将分词位置信息融入计算。原始Transformer论文为每个位置赋予独特数字模式添加到分词嵌入中。但随模型规模扩大加法位置编码方案出现问题。现代模型大多使用旋转位置嵌入RoPE由Su等人在2021年提出被LLaMA、Mistral、Gemma、Qwen等大多数开源权重模型家族采用。RoPE有实际优势但现代大语言模型仍存在 “中间信息丢失” 问题。分词语义和位置编码后问题是分词如何交换信息。注意力机制Attention这是赋予Transformer架构名称的机制。在每个Transformer层中注意力机制让每个分词查看其他分词决定对后续内容重要的分词。它为每个分词赋予查询Query、键Key和值ValueQ、K、V三个角色。匹配通过相似度得分实现得分通过softmax转换为权重再对值向量加权平均。GPT风格语言模型有因果掩码约束。可解释性研究发现归纳头注意力机制成本高近期研究致力于提高其效率。多头注意力机制Multi - head attention单次注意力传递不足以决定哪些分词重要多头注意力机制通过并行多次注意力传递解决每次传递称为一个头。每个头有自己的投影矩阵将完整分词向量映射到较小的Q、K和V向量。不同头通常部分专业化现代仅解码器的大语言模型大多使用分组查询注意力GQA降低内存压力和推理成本。前馈网络Feed - forward network注意力机制完成信息混合后每层有前馈网络。注意力机制关注分词交互前馈网络对每个分词独立处理。前馈网络按顺序执行向量扩展、应用非线性函数、向量压缩回原始尺寸三个操作。中间非线性步骤防止网络退化为大线性变换。密集Transformer模型中大部分参数在前馈网络。研究人员发现前馈网络神经元与特定概念或事实相关还找到不重新训练直接编辑模型事实的方法。一些现代前沿模型用专家混合MoE取代密集前馈网络在不按比例增加推理成本的情况下扩展参数数量。残差流Residual stream和层归一化Layer normalization残差流使模型具有 “累加” 特性注意力或前馈网络运行后结果与分词向量逐位置相加。残差连接源于ResNet解决深度网络训练难题。在现代可解释性研究中残差流是核心对象。层归一化保持残差流稳定。2017年原始Transformer在子模块后应用归一化现代Transformer通常在子模块前应用归一化。归一化函数变化许多现代开源模型使用RMSNorm。下一个分词预测经过所有层处理后模型为每个分词得到向量。生成时预测下一个单词取最后一个分词的最终向量转换为对数几率softmax将其转换为概率分布。模型通常不选概率最高的分词解码设置控制输出确定性或多样性。选择分词后添加到输入模型继续运行直到输出序列结束分词或达到长度限制。基础大语言模型核心训练信号是预测下一个分词后续训练后优化可微调模型。推测解码是重要效率创新。架构与训练权重基本架构包括分词、嵌入、位置编码、注意力机制、多头注意力机制、前馈网络、残差流和归一化以及下一个分词循环。GPT、Claude、Gemini和LLaMA等模型属Transformer架构家族差异在于训练权重、配置和训练后优化。2023 - 2025年的 “现代Transformer” 架构在许多前沿和开源权重模型中有共同选择。未来发展Transformer架构家族趋同在机器学习历史上不寻常现在Transformer风格模型出现在多个领域。Mamba和其他状态空间模型是可信替代方案混合架构也在探索中。本文介绍的核心机制是持久部分。读者读完应能读懂现代Transformer论文或模型说明了解架构内容。欢迎反馈读者可在X上联系作者。