本文深入探讨了后训练在预训练模型基础上的重要性与方法涵盖微调与对齐技术。文章不仅分析理论还提供Llama 3等模型的实际操作指南适合开发者深入了解并应用。后训练通过调整模型参数适应新任务其扩展律和RL训练成为关键。文章详细解析了SFT微调、对齐技术及RLHF的训练流程并对比了不同强化学习策略优化算法旨在帮助读者掌握提升大模型性能的核心技术。什么是后训练后训练Post-Training是指在预训练模型的基础上针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调Fine-tuning和对齐 Alignment即调整预训练模型的参数以适应新的任务。黑色 预训练阶段红色 后训练阶段紫色 推理测试阶段为什么要进行后训练Post-training重要性-后训练扩展律Post-training scaling laws 已经出现Pre-traing阶段的scaling law计算量C模型参数量N ,数据大小D当不受其它两个因素制约时模型性能与每个因素均呈幂等关系三者满足随着模型尺寸的逐渐增大预训练阶段参数扩展带来的边际收益开始递减基于RL的post-trainging将会成为下一个突破点自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正仅依靠生成式方法和扩大参数规模收益有限需要寻找额外的Scaling LawsGPTGenerative Pretrained Transformer系列是典型的自回归语言模型。在 GPT 模型中它的生成过程是基于自回归机制。例如在文本生成任务中给定一个初始的输入文本序列可以是一个单词、一个句子或一段话模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”模型会计算在这个序列之后不同单词如 “runs”“jumps”“sleeps” 等出现的概率然后从这个概率分布中采样一个单词作为下一个生成的单词。新的扩展维度Al能力的提升不再局限于预训练阶段还可以通过在 Post-Training 阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升即Post-Training Scaling Laws 以及 Test-time scaling Resoning 随着训练时的计算量和测试时的计算量的增加模型性能也会随之提升。常见大模型后训练流程这里以Llama 3来示例1.持续通过人工标注或机造方式生成偏好pair样本训练Reward Model2.基于当前能力最好的模型随机采集一批 {Prompt} 每个Prompt拿最好的模型做 K 次数据生成采样每个Prompt就得到 K 条 Prompt,Responsek 数据3.拒绝采样对第2步采样 K 个 Prompt,Responsek 数据用Reward Model打分并从中选取打分最高 topN 条样本。作为指令微调的精选样本训练SFT Model4.训完SFT Model再通过持续收集的偏好对样本同步骤1做对齐学习Llama使用的是DPO。最终得到了一个比当前模型更好的模型5.持续做步骤1~步骤4飞轮迭代优化模型。训练数据SFT data采样模型多次让RM选出最好的回复作为SFT data的一部分。部分细节如下采样什么模型两种情况。迭代中表现Avg score最好的模型或者在某个particular capability上表现最好的模型。采样多少次K10~30即一般采样10-30次。prompt哪来人工标注的prompts。并在后训练迭代后期引入特殊的system prompts。Preference data采样什么模型部署多个不同数据配比和对齐方法训练的模型针对每个prompt选取两个不同的模型进行采样。原因不同模型能够在不同的能力维度上表现出差异数据质量和多样性更好。偏好等级四个等级显著更好significantly better更好better稍微更好slightly better略微更好marginally better。允许修改标注同学可以进一步优化chosen response最后edited chosen rejected。迭代式难度最后随着模型改进逐步提高prompt复杂度。微调 Fine-tuning微调是指在预训练模型的基础上使用特定任务的数据集进行进一步训练以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能使模型能够更好地适应和完成特定领域的任务。SFT (Supvised Fine tuning ) 微调方法全量微调 VS 部分微调全量微调 Full Fine-TuningFFT是指在预训练模型的基础上使用特定任务的数据集对模型的所有参数进行进一步训练以使模型更好地适应特定任务或领域的过程。部分微调 PEFTparameter-efficient fine-tuning参数高效微调一种针对大型预训练模型的微调技术旨在减少训练参数的数量从而降低计算和存储成本同时保持或提升模型性能仅微调模型中的一小部分参数常见方法如下选择参数子集重新参数化LoRALow-Rank Adaptation 使用低秩表示重新参数化模型权重核心思想是将权重矩阵 W 分解为两个低秩矩阵 A 和 B 的乘积即其中是预训练模型的原始权重矩阵。A 和 B 是两个低秩矩阵其维度远小于 W。通过这种方式LoRA 只需要更新 A 和 B 的参数而不是整个 W。这显著减少了需要更新的参数数量从而提高了微调的效率。添加额外的可训练的tokenPrompt-tuning对齐 Alignment对齐是指通过各种技术手段使模型的输出与人类的偏好和价值观对齐确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具即可通过人类反馈强化学习RLHFReinforcement Learning from Human Feedback的方式通过训练奖励模型对齐模型输出与人类偏好强化学习中需要用到的关键组成部分如下带有人类偏好反馈的标签数据input,accept,reject奖励模型Reward Model- 奖励信号Rule-based RMModel-based RM强化学习策略优化算法DPO (Direct Preference Optimization) 直接偏好优化PPO Proximal Policy Optimization近端策略优化GRPOGroup Relative Policy Optimization组内相关策略优化算法强化学习策略优化算法 DPO VS PPO VS GRPORHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法常见的有以下几种PPOProximal Policy Optimization近端策略优化是 OpenAI 在2017年提出的一种基于策略梯度Policy Gradient的强化学习算法。优化过程是构建一个损失函数 需要根据奖励模型的奖励信号和新旧策略差异计算损失函数并且会限制策略更新的幅度保证了模型的稳定性。损失函数其中是新旧策略概率之比反映新旧策略的改进情况。是优势估计值反映智能体选择某个动作的好坏。clip是剪辑机制反映经过剪辑后的改进结果防止进步过快或退步过多保待稳定的训练过程。选择最小值 1基于新策略直接计算出来的值2经过剪辑后的值保持训练的稳定性。DPO(Direct Preference Optimization)直接偏好优化优化过程相对直接。不需要训练一个单独的奖励模型。直接利用人类偏好排序数据概率比来构建目标函数并优化策略目标 最大化用户偏好数据的生成概率同时减少用户非偏好数据的生成概率无需明确的奖励模型更多依赖于用户提供的偏好排序或比较数据不需要同环境进行交互适用于需要从静态数据如用户的偏好反馈中学习的任务 并且高度依赖用户反馈的数据质量GRPOGroup Relative Policy Optimization组内相关策略优化算法与PPO相比无需额外训练价值模型通过从同一问题的多个输出中计算平均奖励来替代价值函数的作用从而减少了显存和计算负担但依赖于奖励模型的评分来区分输出的好坏这对于奖励模型的设计也提出了更高的要求。强化学习 RMReward Model奖励模型的优化思路在传统的强化学习RL框架中智能体通过与环境的交互来学习以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题RLHF (Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式包括直接的奖励信号、排名反馈、偏好比较等。LLM as a judge判别式的RM的准确率不足可以用于事实性输出风格等的判定Generative RM先CoT自然语言推断的再给出奖励信号Let’s verfify step by step Critic Model随着大模型的不断迭代其输出的内容越来越准确错误也变得更加隐蔽就算是专业的AI训练师也很难察觉那些错误所在open ai训练了CriticGPT这种谈论家模型用于加强RLHF但注意用model去建模reward可能会因为过度对齐人类的偏好而引入biasOutcome-based Reward ModelORM 到 Process-based Reward ModelPRM 向着模型能生成正确的推理能力的方式去优化PRM过程奖励模型是在生成过程中分步骤对每一步进行打分是更细粒度的奖励模型。ORM结果奖励模型是不管推理有多少步对完整的生成结果进行一次打分是一个反馈更稀疏的奖励模型。注意reward model可能会被hacking的问题可以将不同的reward model混在一起训练 让模型训多轮后也比较难找到RM的漏洞。推理阶段Test-time computation的优化思路快思考 - 慢思考系统1思维一次性生成完整解法的方法Next Token Prediction 缺乏详细的中间推理步骤模型一开始可能会犯错错误会传播导致最终生成的答案也是错的系统2思维 模仿人类通过更慢更深的思考过程进行推理CoT: Training-Free的方式 通过分步的方式生成一系列中间推理步骤从而提升模型推理能力Let’s think step by step Best of N MCTS Monte Carlo Tree Search 蒙特卡洛树搜索 : 在Token或字句级别分解建模成节点后提供奖励信息Process-based-Reward-ModelToken级别的节点每个节点对应生成序列中的一个Token。通过MCTS模型可以探索不同的Token序列最终生成更连贯的响应句子级别的节点在复杂推理任务中每个节点可以代表一个完整的句子或推理步骤帮忙模型更好地处理多步推理任务STaRSelf - Taught Reasoner 教会模型从内部深入思考问题与答案的关联STaR 的核心思路是利用 LLM 已有的推理能力迭代式的引导模型产生合理推理过程 (Rationales) 的能力井将 Rationales 融入到训练过程内让模型学会进行推理通过few shot example 来prompt模型生成答案和推理过程过滤出正确的数据集生成微调数据集来微调deepseek-R1 强化学习训练时使用的prompt格式要求模型将推理的过程的思路输出到标签中引导模型进行慢思考Quiet-STaR (Self - Taught Reasoner)通过控制模型在生成文本时自动生成推理步骤即理由或rationales从而提高模型的预测能力和推理性能在训练阶段先基于前序token停下进行think阶段产出从多个thought选择某一个thought加上前序token进行预测下一个token然后经过奖励模型的评判进行反馈学习在推理阶段利用think及talk对应的prompt来引导进入慢思考在think结束后再进行talk微调SFT VS 强化学习RLSFT-示范给模型怎么样做是对的RL-在环境中不断的试错累积奖励理论上RL能榨干模型能突破人类的上限但reward要能写好SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-trainingRL 在泛化方面的优势RL特别是在基于结果的奖励下进行训练时能够在基于规则的文本和视觉变体中实现泛化。这表明强化学习在处理不同情境和变化时具有更强的适应能力。强化学习通过与环境的交互不断调整策略从而能够学习到更通用的知识和行为模式。SFT 在记忆方面的倾向SFT 则倾向于记忆训练数据在分布外的场景中难以很好地泛化。这是因为监督微调主要是通过最小化预测与真实标签之间的误差来调整模型参数容易使模型过度拟合训练数据。SFT 对 RL 训练的重要性尽管 RL 在泛化方面表现出色但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定导致 RL 训练难以收敛或效果不佳。以DeepSeek R1示例后训练DeepSeek-R1对于test-time阶段的处理提及对于RPM及MCTS等手段未被证实有效果R1-ZERO仅使用RL未使用SFTReward Model未使用RPM等相对复杂的模型而是仅使用的了rule-based的RM强化学习算法使用的自家的GPPO相对于PPO等更加的简单也更考验RM的设计能力给后续的推理模型后训练很多启发仅RL也可以得到非常好的推理效果。总结RL - deepseek R1 zreoSFTRL - deepseek R1 llama3SFT - 蒸馏的一些小模型test-time scaling - openai o1如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取