大模型的发展历程大模型发展历程:技术演进与趋势洞察;这是大模型系列的第二篇文章,主要介绍一些和大模型相关的概念。🏛️ 一、核心数学与算法揭示了驱动所有神经网络(包括 LLM)学习的底层循环逻辑。 神经网络的学习循环想象一个学生在不断学习:做题 → 对答案 → 总结错误 → 改进方法。神经网络的学习与此类似。
Gradient 关键组件
🧩 二、深度学习与 LLM 特有机制将视野从通用神经网络拓宽到 LLM 所特有的概念和工作方式。 学习范式
layer
核心术语
Embedding
🛠️ 三、大模型训练与推理优化聚焦于如何让一个“通才”模型变得更专业、更高效。 微调 (Fine-tuning) 的艺术
核心引擎:Attention 机制
自注意力机制 (Self-Attention) 是 Transformer 架构的心脏。它通过复杂的 查询 (Q)、键 (K)、值 (V) 交互,计算出句子中任意两个词之间的关联度,从而理解长距离的依赖关系和复杂的语法结构。 Self-Attention 推理优化 (Inference Optimization)
🚀 四、模型压缩与部署探讨如何让庞大的模型“瘦身成功”,并真正走进我们的手机和电脑。 模型压缩技术
Distillation
部署策略
总结LLM 的未来将走向效率与能力的平衡、普及多模态能力、增强智能体 (Agent) 功能,并持续关注安全与对齐。对我们学习者而言,最好的策略就是:夯实基础、动手实践、保持好奇,并以负责任的态度,迎接这个由 AI 驱动的全新时代。 | |
在现代人工智能领域,一个基本信念推动着技术的前沿发展:模型规模、数据量和计算资源的持续扩大,能够带来性能的显著提升和涌现能力(Emergent Capabilities)。这一**规模法则(Scaling Law)**已成为训练更强大语言模型的黄金准则。为了实现这一目标,业界逐渐分化出两种核心的架构哲学,它们代表了通往通用人工智能(AGI)的两条不同路径。 第一种是稠密(Dense)架构。这是一种“蛮力”方法,每一次计算都会动用模型中的每一个参数。它体现了一种集中式、整体化的智能哲学,即通过一个巨大而统一的神经网络来处理所有任务。 第二种是混合专家(Mixture of Experts, MoE)架构。这是一种 本文将对这两种主流范式进行一次权威且深入的比较分析,系统性地剖析它们的技术基础、实践中的权衡,以及对未来人工智能发展的战略性影响。 1、Dense Transformer 架构:集中式力量的基石
1.1 架构蓝图:“全参数激活”范式
这种设计的本质是信息的无差别、最大化流动。每一个参数都对最终输出有潜在贡献,这保证了模型强大的表示能力,但代价是巨大的计算资源消耗。 1.2 规模化的困境:高昂的推理成本与横向扩展挑战这部分将直接回应一个核心问题:为什么稠密模型推理成本高,且难以进行横向扩展?
正是由于稠密模型在规模化过程中遇到的这些严峻的工程和成本挑战,才为其他更高效的架构创新铺平了道路。这种内在的压力催生了对一种新范式的需求:一种能够在不按比例增加计算成本的情况下,有效扩大模型容量的架构。这为混合专家(MoE)模型的复兴和现代化改造创造了绝佳的条件。 1.3 稠密范式的典范模型
2、混合专家(MoE)架构:稀疏专业化的范式面对稠密模型高昂的扩展成本,混合专家(MoE)架构作为一种替代方案应运而生。它借鉴了 2.1 架构蓝图:实践中的条件化计算MoE 架构的核心创新在于,它用一个稀疏 MoE 层替换了标准 Transformer 模块中的稠密 FFN 子层。这个 MoE 层主要由两个部分构成:
条件化计算是 MoE 的灵魂。对于每个令牌,模型不再激活全部参数,而是有条件地只激活一小部分——即被路由器选中的 2.2 稀疏性的经济学:解构更低的计算成本这部分将详细解释为什么 MoE 架构在计算上更“便宜”。 关键在于区分**总参数量(Total Parameters)**和 激活参数量(Active Parameters)。一个 MoE 模型可以拥有巨大的总参数量(所有专家参数与共享参数之和),但在处理任何一个令牌时,它实际使用的只是激活参数量,即被选中的少数专家的参数。 以 Mixtral 8x7B 为例,这个模型完美地诠释了这一概念。它拥有 8 个专家,每个专家的参数规模约为 70 亿。然而,它的路由器在每一层为每个令牌只选择 2 个专家进行计算。这意味着,尽管其总参数量高达约 470 亿(考虑到各层共享的注意力模块等),但每个令牌在前向传播中实际参与计算的参数量仅为约 130 亿。 这对成本和速度意味着什么?模型的训练和推理所需的计算量(FLOPs)是由激活参数量决定的,而非总参数量。因此,Mixtral 8x7B 能够以一个 130 亿参数稠密模型的速度和成本进行训练和推理,同时却可能拥有一个 470 亿参数模型的知识容量和性能。这就是 MoE 架构最根本的经济优势。 这种架构的成功,标志着对 大模型 概念的认知转变。它成功地将模型的知识容量(与总参数量相关)与计算成本(与激活参数量相关)分离开来。这预示着未来的模型发展可能不再仅仅依赖于构建越来越庞大的稠密网络,而是转向设计更智能的路由机制和更专业的专家网络,在稀疏的框架内实现性能的飞跃。研究的重心正从单纯的扩大规模,转向提升参数的使用效率。系统的智能越来越多地体现在路由决策本身,而不仅仅是专家网络中。 2.3 MoE 范式的典范模型
3、稀疏性的挑战:MoE 实施中的关键难题尽管 MoE 架构在计算效率上优势显著,但它也引入了一系列独特的工程挑战,尤其是在负载均衡、训练稳定性和内存管理方面。 3.1 负载均衡的困境这是 MoE 架构中最核心的挑战之一。
3.2 对训练稳定性的追求MoE 模型因其训练过程的脆弱性而闻名。
3.3 VRAM 的悖论:计算廉价,内存昂贵MoE 模型存在一个看似矛盾的特性:它在计算上是高效的,但在内存上却是贪婪的。
4、综合分析在深入剖析了稠密 Transformer 和 MoE 两种架构的内部机制与挑战后,本节将进行全面的对比总结,并探讨未来的发展趋势。 4.1 全面比较分析下表提供了一个直观的、多维度的对比,旨在帮助从业者在架构选型时快速评估其优劣与权衡。
4.2 通才 vs. 专才:一种功能性视角从功能角度看,稠密模型和 MoE 模型代表了两种不同的知识组织方式。 image-20250616104847664
然而,这种界限并非绝对。一些研究(如“MoEfication”)发现,即使是稠密的 FFN,在训练后其内部也可能自发地形成稀疏的激活模式,表现得像一个隐式的 MoE 。这表明,专业化分工可能是深度学习系统的一种内在涌现属性,而 MoE 架构只是将这种属性显式化、结构化了。这一视角对于模型的可解释性研究以及未来对特定专家进行定向微调具有重要启示。 4.3 前路在何方:混合化与融合展望未来,LLM 架构的发展路径可能并非在纯粹的稠密和纯粹的 MoE 之间做出二元选择,而是走向一种融合二者之长的混合式架构。
这种融合代表了业界对架构权衡的成熟理解。稠密组件可以为模型提供一个鲁棒的、通用的知识基础,而稀疏的 MoE 组件则提供了一种计算高效的方式来扩展模型的专业知识容量。未来的核心挑战将在于如何智能地设计这些混合系统,以在性能、成本和效率之间找到最佳的平衡点,从而持续推动人工智能能力的边界。
| |
当要求大型语言模型(LLMs)在1-50范围内生成"随机"数字时,它们表现出明显的偏向性,特别是对数字27的强烈偏好。 这一现象并非技术缺陷,而是反映了人类认知偏差的深层镜像——因为这些模型是在人类生成的文本数据上训练的, 它们学会了复制人类在"随机"选择中的系统性偏差。研究表明,数字27位于心理学上的"黄金地带"—— 既不太明显(如1、10、25、50),也不太无趣(如20、30),给人以"随机而独特"的感觉。 这个现象不仅仅是国外主流模型出现,国内模型似乎也在遵循这个法则。
国外主流模型
国内主流模型为什么会有这个 27 Magic Number 存在呢?下面是我使用 Agent 做的一个 DeepReaserch~,来看看模型怎么解释模型的 | |
大语言模型(Large Language Model, LLM)的训练是人工智能领域最复杂、最资源密集的任务之一。从2017年Transformer架构的提出,到2022年ChatGPT的横空出世,再到2025年DeepSeek-R1的突破性进展,LLM的训练技术经历了快速的演进和深度的优化。
本文将从技术原理、实践方法、挑战难点等多个维度,全面解析LLM模型训练的核心技术。不仅会深入探讨传统的预训练和微调技术,还会重点分析最新的强化学习训练方法,特别是 DeepSeek-R1 等模型所采用的创新训练范式。 1、LLM 训练基本流程整体训练管道阶段一:预训练(Pre-training)
阶段二:后训练(Post-training)
最新进展:推理导向训练以DeepSeek-R1为代表的新一代模型,引入了推理导向的训练范式,通过多阶段强化学习显著提升了模型的推理能力。
这种训练方式在数学推理、代码生成等任务上实现了显著突破,性能可与OpenAI o1模型相媲美。 2、核心知识点详解模型架构基础关键计算公式
优化算法核心数据处理技术3、模型训练方案分析微调方法对比前沿高效微调方法分布式训练策略主流训练框架对比4、训练难点与挑战技术层面挑战训练资源需求增长趋势 数据层面挑战工程化挑战成本分析5、模型训练的本质训练的数学本质优化理论视角
寻找最优参数θ,使得在数据分布D上的期望损失最小
通过梯度信息迭代更新参数**,**朝着损失下降方向移动
训练的最终目标是最小化测试误差与训练误差的差距 学习机制深度解析模式识别与抽象涌现现象(Emergence)
缩放定律(Scaling Laws)
哲学层面思考6、最新发展与前沿趋势强化学习训练的突破技术创新前沿未来发展趋势7、总结🔑 技术本质理解
💡 实践经验总结
结语"大语言模型的训练,不仅仅是一个技术过程,更是人类智慧的结晶与传承。我们通过数学的语言,让机器学会了理解世界的方式;通过算法的力量,让人工智能获得了思考的能力。这个过程既充满挑战,也充满希望。" | |
大型语言模型(LLM)的训练过程虽然耗资巨大且备受关注,但其真正的价值实现,却发生在 推理(Inference) 这一最终环节。推理是将训练好的模型应用于实际,根据
本文将深入剖析 LLM 系列文章推荐:
大模型发展历程:技术演进与趋势洞察 LLM 系列(二):基础概念篇 LLM 系列(三):核心技术之架构模式 LLM 系列(四):神奇的魔法数 27 LLM 系列(五):模型训练篇 推理的本质:一个两阶段的自回归过程要理解推理优化,首先必须掌握 Transformer 推理机制现代大语言模型主要基于
下图是 基于 Decoder 的 Transformer 架构 Decoder-only Transformer架构 自回归生成:逐字吐露的本质自回归意味着模型以 逐个 token 的方式生成文本。每个新
这种循序渐进的特性是 两阶段过程:预填充(Prefill)与解码(Decode)
这种 计算密集 与 内存密集 的鲜明对比,意味着任何单一、静态的优化策略都难以同时完美地适应两个阶段。一个真正高效的推理系统必须能够同时处理这两种性质迥异的负载。 KV 缓存:优化的功臣与新的瓶颈为了避免在每个解码步骤中为所有历史
KV Cache的核心优化方向:
量化性能与直面挑战为了有效评估和优化推理系统,我们需要一套标准的语言来描述其性能,并清晰地认识其面临的核心硬件制约。 核心性能指标以下四个指标构成了评估 LLM 推理性能的基石,它们相互关联,共同定义了一个复杂的权衡空间。 这四个指标并非孤立存在。例如,为了提高吞吐量而增大批处理大小,通常会导致每个请求的排队时间和处理时间增加,从而恶化 TTFT 和 TPOT。因此,不存在普适的“最佳性能”,只有面向特定应用场景的“最优权衡”。一个实时聊天应用会优先保证低延迟,而一个离线分析服务则会优先追求高吞吐量。 “有效吞吐量”与双重瓶颈单纯追求高 TPS 可能会产生误导。一个系统可以通过极大的批处理来刷高 TPS,但如果每个请求的延迟都高到用户无法接受,那么这种高吞吐量是无效的。因此,**有效吞吐量(Goodput)**的概念应运而生,它衡量的是在满足特定服务等级目标(SLO,如 这背后是推理系统面临的双重瓶颈:
优化技术为了攻克上述挑战,学术界和工业界发展出了一系列精巧的系统级优化技术。这些技术并非孤立的选项,而是构成了一个协同工作的技术栈,共同铸就了现代高性能推理引擎。 PagedAttention 与注意力变体
加速核心计算:FlashAttention标准注意力计算本身也是内存带宽密集型的,因为它需要将巨大的中间结果(一个
通过避免读写巨大的中间矩阵, 压榨 GPU 性能:连续批处理
其他关键优化
投机解码 这些优化技术的演进趋势清晰地表明,推理优化的重心已从单纯 规模化之路:分布式推理策略当单个模型的尺寸超过单个 GPU 的内存限制时,就必须采用分布式策略,将其部署在多张 GPU 乃至多个节点上。 并行策略的分类
硬件与策略的匹配并行策略的选择与硬件的物理连接方式(网络拓扑)息息相关。
未来的一个重要方向是 动态并行。鉴于预填充和解码阶段的计算特性不同,推理引擎未来可能会根据当前处理的阶段动态地调整并行策略(如动态重分片),以实现全局最优性能。 主流推理框架当前,开源社区和商业公司提供了多个优秀的推理框架,它们在设计哲学和技术实现上各有侧重。 这三个框架完美体现了工程领域的经典权衡:性能(Performance) vs. 生产力(Productivity) vs. 可移植性(Portability)。TensorRT-LLM 追求极致性能,TGI 追求极致生产力,而 vLLM 则在性能和易用性/可移植性之间取得了出色的平衡。对用户而言,选择哪个框架,取决于具体的业务需求、硬件环境和团队技术栈。任何脱离具体场景的“性能最好”的论断都是片面的,唯一的真理是进行符合自身生产环境的基准测试。 国产化浪潮:自主生态下的推理实践在全球大模型技术飞速发展的同时,中国的人工智能领域也形成了蓬勃发展的生态系统,其显著特点是“模型-框架-硬件”全栈协同与自主创新 。在推理层面,这体现为国产大模型、推理框架与国产AI芯片的深度适配和联合优化。 国产 AI 芯片与推理的基石大模型的推理对算力、内存带宽和容量提出了极高要求,这催生了国产AI芯片的快速发展,它们是实现大模型应用落地的关键硬件载体 。
主流国产大模型与推理框架依托于自主硬件和软件生态,国内的主要科技公司均推出了各具特色的大模型及配套的推理部署方案 。
开源驱动与生态共建与国际趋势相呼应,开源已成为推动中国大模型技术发展和应用普及的核心战略 。通过开源模型,国内厂商能够快速构建开发者社区,整合底层资源,降低行业研发成本,并以非对称优势参与全球竞争 。这种开放的生态不仅加速了模型本身的迭代,也催生了丰富的下游应用,形成了从基础研究到产业落地的良性循环 。 总体而言,国产大模型推理正走在一条 自主可控 与 开放兼容 并行的道路上。一方面,通过自研芯片和全栈软件优化,构建自主的技术体系;另一方面,通过积极拥抱开源和产业合作,融入全球 AI 生态,共同推动大模型推理技术的边界。 总结LLM 推理领域是一场与内存瓶颈和硬件利用率的持续战斗。本文梳理的各项优化技术,都是为了让日益庞大的模型变得更加实用和经济。展望未来,几个关键趋势正在塑造下一代推理技术:
总而言之,大型语言模型的未来,不仅取决于我们能构建多大的模型,更取决于我们能以多快的速度、多低的成本、多高的效率去运行它们。推理优化,正是这场通往通用人工智能道路上,至关重要且充满挑战的征途。
| |
数据的语言:线性代数1、从文字到数字:通用语言的需求一切的起点源于一个根本性的挑战:计算机无法理解人类语言的丰富内涵,它们的世界由数字和计算构成 。为了让机器能够处理、分析甚至生成语言,我们必须首先将“你好”这样的词语和“天空是蓝色的”这样的句子,翻译成机器能够理解的语言——数学。这一转换过程是整个自然语言处理(NLP)领域,乃至大语言模型(LLM)的基石。
2、向量:语义的DNA向量(Vector)是一个有序的数字列表,可以想象成高维空间中的一个带方向的箭头。在大语言模型中,一个单词或一个“词元”(token,可以是单词的一部分或标点符号)就被表示为一个向量,这个向量通常包含数百甚至数千个维度(即数字)。每个维度都可以被看作是捕捉了该词义的某个特定“特征”或“属性”。 它 解决的核心问题 是:如何将一个离散的、孤立的概念(如一个单词)表示在一个连续的、可度量的数学空间中,从而使得词语之间的关系可以被量化。 一个词语的向量就像一个人的DNA档案。这份档案是一长串独特的数字(基因标记),精确地定义了这个人的生物学特征。拥有相似DNA的人在生物学上是亲戚。同样地,在向量空间中,拥有相似向量表示的词语(例如,“猫”和“狗”)在语义上也是相关的。它们的向量在多维空间中的位置会非常接近,这种“距离”的远近,就成了衡量词义相似度的标尺。 3、矩阵:思维的电子表格矩阵(Matrix)是一个二维的数字网格,由行(rows)和列(columns)组成。在大语言模型中,矩阵的用途无处不在:
一个矩阵就像一张电子表格(Spreadsheet)。每一行可以代表一个数据点(比如一个词向量),每一列可以代表一个特征。这种结构使我们能够对所有数据同时执行批量操作。例如,神经网络中的“权重矩阵”就是一张特殊的电子表格,里面写满了“指令”,告诉模型应该如何处理和转换输入的数据。当输入数据(另一张表格)与这张权重表格进行交互时,模型就完成了一次信息的处理与提炼。 例如,一个句子**“The cat sat”**如果每个词都用一个4维向量表示,那么这个句子就可以被组织成一个3x4的矩阵,其中每一行对应一个词的向量。 4、张量:三维及更高维度的数据张量(Tensor)是向量和矩阵概念的推广,可以理解为一个 n 维的数字数组。从这个角度看:
如果说向量是一条线上的数字,矩阵是一个平面上的网格,那么一个 3阶张量就是一个三维的数字立方体。一个常见的例子是彩色图片: 5、矩阵乘法:信息转换的引擎想象一下,一个矩阵是你的“原料清单”(输入数据),例如,它列出了制作几种不同蛋糕所需的各种原料用量。另一个矩阵则是“食谱大全”(模型的权重),每一份食谱都详细说明了如何按特定比例混合各种原料。 矩阵乘法就像一个全自动的“食谱搅拌机”。它会系统地将“食谱大全”中的每一份食谱,应用到你的“原料清单”上,精确计算出每种蛋糕的最终成分,从而得到一批全新的“蛋糕成品”(输出数据)。这个过程将原始的、未经加工的原料,转换成了更高级、更有意义的成品。 线性代数在大语言模型中的真正威力,并不仅仅在于它提供了一种存储数字的方式,更在于它定义了一套结构化的信息流动系统。矩阵乘法不仅是一次计算,它是信息从网络的一层流向下层,并在每一步被重塑和提炼的核心机制。一个神经网络的架构,本质上就是一张关于矩阵运算的流程图。 更进一步,我们可以发现一个更为深刻的原理:矩阵和向量在模型中扮演着双重角色,它们既可以是数据(空间中的一个点),也可以是代码(一个转换空间的函数)。这种“代码即数据,数据即代码”的二元性,是理解现代LLM(尤其是其注意力机制)的关键。 预测的逻辑—概率论1、游戏的目标:预测下一个词元从本质上讲,一个大语言模型是一个概率语言模型(Probabilistic Language Model)。它的根本目标是计算一个词语序列(即一个句子)出现的概率,用数学符号表示为 如何将“生成文本”这个模糊、开放的任务,转化为一个具体、可量化的数学目标。这个目标就是:为那些符合语法、逻辑和常识的、通顺的句子赋予高概率,而为那些胡言乱语、不合逻辑的句子赋予极低的概率。 例如,模型应该计算出 2、条件概率与链式法则:逐词构建句子直接计算世界上所有可能句子的概率是不现实的,其组合数量是天文数字。幸运的是,概率论中的链式法则(Chain Rule of Probability)允许我们将这个复杂问题分解为一个可管理的、一步一步的过程。一个序列的联合概率可以被分解为一系列条件概率的乘积: 这个公式的含义是,整个句子的概率等于第一个词出现的概率,乘以在第一个词出现条件下第二个词出现的概率,再乘以在前两个词都出现条件下第三个词出现的概率,以此类推。 模型正是基于这个原理进行自回归(Autoregressive)生成的:它一次预测一个词元,然后将这个新生成的词元添加到输入序列中,作为下一次预测的上下文。
早期的 3、衡量“错误程度”:交叉熵损失函数在训练过程中,模型会根据当前的输入预测下一个词元的概率分布。我们需要一种方法来衡量这个预测的概率分布与“真实答案”(即训练数据中实际出现的下一个词)之间的差距有多大。这个衡量的标尺被称为 损失函数(Loss Function)。对于像预测下一个词这样的分类任务,最常用且最有效的损失函数是交叉熵损失(Cross-Entropy Loss)。 交叉熵损失函数不像一个只会说“对”或“错”的裁判,它更像一位理想的教练。这位教练不仅评估你的答案是否正确,还非常关心你的“自信程度”:
这种机制激励模型不仅要做出正确的预测,还要对自己的预测有恰当的信心。
选择交叉熵作为损失函数并非偶然。它的根源在于信息论,它衡量的是两个概率分布之间的“距离”或“差异”:一个是模型预测的概率分布,另一个是真实的概率分布(真实分布中,正确词的概率为1,其他所有词的概率为0)。交叉熵从信息论的角度量化了用模型的预测来描述真实情况所产生的“意外程度”或“信息编码的低效率”。高损失值意味着模型对正确答案的出现感到非常“惊讶”。 更进一步,交叉熵函数的特定数学形状——对数函数那条陡峭的曲线——直接决定了学习的动态过程。这个函数为优化问题创造了一个“损失地貌”(Loss Landscape),其中,对于非常离谱的错误,地貌上会形成万丈悬崖。这些悬崖提供了极其强大和明确的“信号”(即巨大的梯度),精确地告诉优化算法应该朝哪个方向、以多大的力度进行修正。如果换用一个惩罚不那么严厉的损失函数,损失地貌可能会变得平坦,使得模型在犯下严重错误时难以获得清晰的改进方向。因此,损失函数的选择不仅是在衡量错误,更是在主动地塑造学习问题本身,将其雕刻成一个更容易被优化算法解决的形态。它为学习过程开凿出了深邃的峡谷,引导着模型走向优化。 学习的引擎——微积分导论1、寻找谷底:优化的目标训练模型的过程,本质上是一个优化问题(Optimization Problem)。其目标是,在庞大的训练数据集上,找到一组能让损失函数(Loss Function)达到最小值的模型参数(即权重和偏置)。 我们可以将损失函数想象成一个广阔无垠、崎岖不平的高维“地貌”(Loss Landscape),上面有高山也有深谷。
2、梯度下降梯度下降(Gradient Descent) 是用来在这片“损失地貌”上导航并寻找最低点的核心算法。它的工作原理非常直观:从一个随机的初始位置出发,周而复始地朝着当前位置最陡峭的下坡方向迈出一小步。 这个过程最经典的类比就是一个蒙着眼睛的登山者(或徒步者)想要走到山谷的最低点。
3、反向传播反向传播(Backpropagation,简称 Backprop)是一种高效计算神经网络中所有参数梯度的算法。它通过微积分中的链式法则(Chain Rule),将最终的损失(误差)从网络的输出层开始,逐层“反向”传播回输入层,从而计算出每一层的每一个权重对最终总误差的“贡献度”。
想象一下你用乐高积木搭建了一座复杂的城堡(这相当于模型的前向传播,Forward Pass)。搭建完成后,你退后一步审视,发现城堡的塔尖歪了(这就是最终的误差)。你不会把整个城堡推倒重来。相反,你会从问题最表层的地方开始追溯责任:
你将错误的“责任”或“影响”从塔尖开始,一层一层地反向传播下去,直到找到最根本的、需要被修正的那几块积木。反向传播就是这个“追责”过程的数学化身,它精确地计算出每一块“积木”(权重)对最终“塔尖歪斜”(总误差)负有多大的责任。 “蒙眼登山者” 的类比完美地揭示了梯度下降的一个核心特性:它是一个 局部贪心算法。登山者只拥有关于脚下小片区域的局部信息,无法看到全局地貌。这意味着它很容易被困在一个“局部最小值”(Local Minimum)——一个看似是谷底,但实际上只是一个小土坑,旁边还有更深的山谷 。这在早期深度学习研究中曾被视为一个巨大的障碍。然而,后来的研究和实践发现,在LLM所处的超高维度空间中,纯粹的、质量很差的局部最小值非常罕见。更常见的问题是遇到广阔的“平原”(梯度接近于零的区域)或“鞍点”(在某些维度是最小值,在其他维度是最大值的点),这些都会让朴素的梯度下降停滞不前。 而反向传播,其意义远不止于一个微积分的计算技巧。它是一种优美的、用于在复杂分布式系统中进行 信誉分配(Credit Assignment)的算法。它精确地回答了这样一个问题:“对于我们最终看到的总误差,网络中数十亿个权重中的每一个,究竟应该承担多大的责任?” 从输出层反向流动的“误差信号”,其物理意义正是“在某个特定权重上施加一个微小的改动,最终的总损失会发生多大变化”的量度。它是一个分布式的、可并行化的系统,用于确定网络中每个组件的影响力。正是这种高效的信誉分配机制,使得深度网络能够从错误中学习,并构成了整个深度学习革命的基石。它将学习这个抽象概念,转化为了一个具体的、可计算的、信息在网络中反向流动的过程。 架构—构建现代语言模型词嵌入1、编码的演进:从独热编码到密集向量在将词语转化为机器可读的数字时,最简单直接的方法是独热编码(One-Hot Encoding)。想象一个词汇表,包含了世界上所有的词语。对于任何一个词,我们都创建一个长度与词汇表大小相等的向量。这个向量中,只有代表该词的位置为1,其余所有位置都为0。 这种方法存在几个致命缺陷:
为了克服这些问题,密集词嵌入(Dense Word Embeddings)应运而生。它不再使用稀疏的0和1向量,而是用一个相对低维(例如几百维)的、充满实数值的密集向量来表示一个词。这些向量是通过神经网络在大量文本上训练学习得到的,其核心思想是让向量本身能够编码词语的语义信息。 2、Word2Vec:语境即意义
3、语境为王:从静态到动态的 ELMo 与 BERT
为了解决这个问题,上下文相关的词嵌入(Contextualized Word Embeddings)模型诞生了,其中最具代表性的是
词嵌入技术的发展历程,不仅仅是模型性能的提升,它也反映了我们对语言本质理解的深化。
这种从静态到动态的演变,使得模型能够捕捉到语言中极其微妙和复杂的现象,为大语言模型的成功奠定了坚实的基础。 非线性激活函数的作用1、为何需要非线性:打破线性模型的枷锁想象一下,一个神经网络由许多层组成,每一层都对输入数据进行一次矩阵乘法(线性变换)。如果这些层之间没有任何非线性的处理,那么无论网络有多深,它最终都等同于一个单层的线性模型。这是因为 线性函数的组合仍然是线性函数。例如,如果第一层的操作是
第二层的操作是
那么将它们叠加起来得到
这最终还是一个 2、ReLU:简单高效的“开关”
其数学表达式为:
3、GeLU:更平滑、更智能的选择
其数学表达式为:
其中,
如果说 注意力机制1、记忆的瓶颈:长距离依赖问题在 然而,在实践中, 2、注意力机制:Q, K, V注意力机制(
这个过程可以通过一个生动的类比来理解:在图书馆中查找资料。
整个注意力过程如下:
这个新生成的向量,就是当前词经过注意力机制处理后的新表示,它包含了丰富的上下文信息。 数学表示 这个过程可以用一个简洁的公式来概括:
3、注意力的代价与效率革命标准注意力机制(也称点积注意力)虽然强大,但有一个巨大的计算代价。为了计算一个词的注意力,它的Query需要和所有 当序列长度 为了解决这个问题,研究者们提出了各种 高效注意力机制(Efficient Attention Mechanisms)。这些方法的核心思想是,一个词的注意力通常不需要密集地分布在所有其他词上,而只需要关注少数几个关键的词。
注意力机制的出现,标志着序列处理范式的根本性转变。RNN将序列视为一条线,信息只能沿着这条线单向流动。而注意力机制将序列视为一个完全连接的图(Graph),其中每个词(节点)都可以直接与其他任何词建立连接(边)。 这个机制的深刻之处在于,图的连接强度(边的权重,即注意力分数)不是固定的,而是动态的、由数据本身决定的。对于每一个输入,模型都会即时构建一个独特的、加权的“信息路由网络”,来决定信息应该如何在序列内部流动和汇聚。 而从标准注意力到高效注意力的演进,则揭示了AI领域一个反复出现的主题:当一种强大但昂贵的计算能力被发现后(如密集自注意力),紧随其后的必然是一波旨在使其计算上可行的研究浪潮。这些研究往往不仅仅是算法上的近似或优化,它们越来越多地将硬件的特性(如内存访问模式、算术强度)融入到算法设计中,实现算法与硬件的协同优化,从而推动整个领域向前发展。 从训练到文本生成词语的艺术—解码策略当一个大语言模型训练完成后,它就具备了预测下一个词元概率分布的能力。但是,如何从这个包含数万个词元及其对应概率的分布中,选择一个词元作为最终的输出呢?这个选择的过程被称为解码(Decoding)或采样(Sampling)。不同的解码策略会极大地影响生成文本的风格,决定了它是更具事实性、连贯性,还是更具创造性和多样性。 1、贪婪搜索 (Greedy Search)
2、集束搜索 (Beam Search)
3、随机性采样与温度 (Sampling with Temperature)
4、Top-k 采样
5、Top-p (核心) 采样 (Nucleus Sampling)
6、解码策略对比为了清晰地展示这些策略的特点,下表进行了总结:
总结本本系统性地剖析了驱动大语言模型(LLM)从训练到推理全过程的核心数学概念。通过深入浅出的解释和生动的类比,揭示了这些看似抽象的数学工具是如何协同工作,共同构筑起现代人工智能的宏伟大厦。
最终的启示是,数学选择即是伦理选择。 解码策略等看似纯技术性的环节,对模型的幻觉、偏见放大和内容同质化等AI安全问题有着直接而深远的影响。这表明,构建一个安全、可靠且公平的AI系统,不仅需要在数据和模型层面进行努力,更需要在算法的每一个数学细节中,审慎地做出权衡与设计。对这些核心数学概念的深刻理解,不仅是技术从业者的必备素养,也是社会各界监督和引导AI技术健康发展的知识基础。 | |
在过去几年里,大型语言模型(LLM)以其惊人的语言理解和生成能力,彻底改变了我们与技术互动的方式。从写代码、作诗到进行多轮对话,LLM 仿佛无所不能,给我们造成了一种它们 无所不知阿喀琉斯之踵 便暴露无遗。
首先是 知识截止(Knowledge Cutoff) 问题。LLM 的知识来源于其训练数据,而训练是一个极其昂贵且耗时的过程。因此,任何一个模型的知识都被 其次是 模型幻觉(Hallucination)。LLM 的 本质是基于概率生成文本,它会尽力产出听起来最连贯、最 plausible 的内容,但这并不等同于事实。当模型被问及它知识范围之外或模糊不清的问题时,它可能会一本正经地胡说八道,编造出看似合理但完全错误的答案。这种幻觉从无意义的输出到与事实的矛盾,形式多样,极大地侵蚀了用户对模型的信任,是企业级应用落地的致命障碍。 最后,也是最关键的一点,是 私域知识的缺失(Lack of Domain-Specific & Private Data)。任何一家企业都有其独特的产品文档、内部知识库、客户数据和业务流程。这些私有的、领域特定的知识,通用的 LLM 从未学习过,自然也无法回答与之相关的问题。让模型重新训练或进行大规模微调来学习这些知识,高昂的成本往往会让大多数公司望而却步。 为了解决这些根本性问题,一种优雅而高效的架构应运而生——检索增强生成(Retrieval-Augmented Generation, RAG)。你可以把它想象成给 LLM 配备了一个可随时查阅的“外脑”或“随身小百科”。RAG 架构将 LLM 强大的推理能力与外部的、私有的知识库连接起来,让模型在回答问题前,先去“查找资料”,然后依据可靠的资料来组织答案。 这种模式代表了一种应用 AI 的范式转变:我们不再强求模型本身成为一个无所不知的“知识库”,而是将其定位为一个强大的“推理引擎”。模型的任务从“记忆事实”转变为“理解和处理实时提供的事实”。这种解耦使得 AI 应用更加可靠、可扩展且易于维护,是推动 LLM 从“玩具”走向“工具”的关键一步。 RAG 的核心原理要理解 RAG 的工作原理,最贴切的比喻莫过于一场 开卷考试。
这个 “开卷考试” 的过程,在技术上被分解为两个核心阶段:检索(Retrieval)和 增强生成(Augmented Generation) 。
RAG 的巧妙之处在于,它不仅提升了答案的准确性和时效性,还天然地解决了 LLM 的“黑箱”问题,增强了系统的透明度和可信度。因为 RAG 的回答是基于具体的、被检索出的文本,系统可以轻易地将这些“参考文献”展示给用户,比如通过脚注或链接的形式。用户可以追根溯源,自行验证信息的准确性。这种“有据可查”的能力,是获得用户信任、实现业务落地的基本前提 拆解 RAG 系统一个简单的 RAG 概念看似清晰,但要构建一个真正稳定、高效、精准的生产级 RAG 系统,则如同组装一台精密的机器,需要对每个“零件”进行精心设计和调优。一个高质量的 RAG 系统并非单一模型,而是一个复杂的多阶段处理流水线,每个环节都充满了工程上的权衡与挑战。接下来,我们将深入其内部,一探究竟。 数据准备与分块 (Data Preparation & Chunking):知识的“切、磋、琢、磨”知识库是 RAG 的基石,但我们不能直接将一篇长达数万字的 PDF 文档整个扔给模型。原因有三:首先,Embedding 模型和 LLM 都有上下文窗口长度的限制;其次,将整篇文档作为检索单元,会大大稀释信息的密度,导致检索不够精准;最后,从计算效率和成本考虑,处理更小的文本单元也更为经济。 因此,在将知识“入库”之前,我们必须先对其进行分块(Chunking)。目标是把长文档切分成一个个语义完整、大小适中的信息片段(Chunk) 。选择合适的分块策略至关重要。
此外,块重叠(Chunk Overlap)是一个重要的辅助参数。通过让相邻的两个 Chunk 之间有部分内容重叠(例如重叠 50 个字符),可以有效防止在切分边界丢失关键信息,保证上下文的连续性。 表 1: 主流分块 (Chunking) 策略对比 向量化 (Vectorization):将知识翻译成机器的语言分块之后,我们需要将这些文本 Chunk 转换成机器能够理解和比较的格式。这个过程就是向量化(Vectorization),通过一个称为 Embedding 模型的神经网络来完成。
选择一个合适的
向量检索 (Vector Retrieval):在知识的“瀚海”中“捞针”当所有知识 当用户提问时,
表 2: 主流向量数据库选型参考 召回与重排 (Recall & Reranking):从“相关”到“最相关”的精炼通过向量检索,我们从海量知识库中快速“召回”(Recall)了,比如说,50 个可能相关的文档片段。但这一步的检索算法(通常是基于 Bi-Encoder 的近似最近邻搜索)为了速度,在精度上有所妥协。这 50 个片段的相关性良莠不齐,甚至可能出现“大海捞针,针在中间”(Lost in the Middle)的问题——即最重要的信息被淹没在一堆次要信息中,而 LLM 在处理长上下文时,往往会忽略中间部分的内容 。 为了解决这个问题,生产级的 RAG 系统通常会引入一个关键的优化步骤:重排序(Reranking) 。重排序是在召回之后、生成之前的一个精炼阶段。它使用一个更强大但计算更密集的重排序模型(Reranker),通常是跨编码器(Cross-Encoder),来对初步召回的 50 个 Chunk 进行二次打分。与 Bi-Encoder 分别计算问题和文档的向量不同,Cross-Encoder 会将问题和每个候选 Chunk 配对后一起输入模型,从而能更精细地捕捉二者之间的相关性。这个过程就像一个初选和复试:
通过重排序,我们能确保喂给 LLM 的是“优中选优”的、最核心的知识,这不仅能显著提升答案的质量,还能在不牺牲召回广度的前提下,有效缩减最终输入 LLM 的上下文长度,节省成本。 完整流程示例:一次提问的“奇幻漂流”现在,让我们把所有零件组装起来,跟随一个具体的提问,走完一次完整的 RAG 旅程。
至此,一次高质量的 RAG 问答流程圆满完成。
RAG 的“进化”与“变体”:不止于简单的问答
基础的 RAG 框架已经非常强大,但它仅仅是一个起点。整个领域正在飞速发展,涌现出许多更智能、更强大的 RAG 变体。了解这些前沿方向,有助于我们思考 AI 应用的未来形态。这种演进轨迹,也正反映了 AI 系统从固定的、基于规则的流水线,向着动态的、具备推理能力的、能够使用多种工具的智能体方向发展的宏大趋势。
结语
回顾全文,我们可以清晰地看到,RAG 并非一个高深莫测的算法,而是一种极其务实且强大的工程思想。它直面了通用大模型在落地应用时最核心的三个痛点:知识局限、事实幻觉和私域无知。 通过将 LLM 的通用推理能力与企业外部或内部的特定知识源相结合,RAG 成功地为模型装上了“事实的锚”,使其回答既能保持语言的流畅自然,又能做到内容的准确可靠。 对于任何希望利用大模型技术创造价值的企业而言,RAG 都是那把不可或缺的“金钥匙”。它是一座至关重要的桥梁,连接了公域的通用语言智能与私域的、构成企业核心竞争力的专有数据。掌握 RAG,不仅仅是学会一项技术,更是理解并采纳一种全新的、可持续的 AI 应用构建范式。对于每一位致力于用 AI 打造可靠、可信、可扩展产品的产品经理、开发者和架构师来说,这条路,才刚刚开始。
系列文章
大模型发展历程:技术演进与趋势洞察 LLM 系列(二):基础概念篇 LLM系列(三):核心技术之架构模式 LLM 系列(四):神奇的魔法数 27 LLM 系列(五):模型训练篇 LLM 系列(六):模型推理篇 LLM 系列(七):数学概念篇 | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |