【大语言模型系列·第 03 篇】训练方法从预训练到对齐——三阶段流水线、五种对齐算法与数据飞轮系列回顾第 01 篇我们绘制了 LLM 的全景图第 02 篇我们拆解了 LLM 的内部机制。本篇进入 LLM 最核心的工程问题模型是怎么训练出来的一个 LLM 从零到能用需要经历三个阶段预训练学知识→ 监督微调学指令→ 对齐学偏好。预训练用万亿 Token 让模型学会语言和世界知识代价高达数百万到上亿美元SFT 用数千到数万条指令数据让模型从续写机器变成对话助手对齐用人类偏好让模型从能回答变成回答得好。2026 年对齐方法已经从 RLHFPPO演进到 DPO、GRPO、KTO、ORPO 五种主流算法——DeepSeek R1 用 GRPO 实现了纯 RL 推理涌现Llama 3 用 DPO 成为开源标杆。今天我们从三阶段流水线、五种对齐算法到四大实战配方彻底拆解 LLM 的训练方法。 文章目录️ 一、三阶段流水线预训练→SFT→对齐 二、五种对齐算法从 RLHF 到 GRPO 的演进 三、四大实战配方、训练基础设施与未来趋势️ 一、三阶段流水线预训练→SFT→对齐1.1 预训练学知识——代价最高能力最基础预训练是 LLM 训练的第一步也是代价最高的一步。核心目标是让模型学会语言和世界知识。训练目标下一个 Token 预测Next Token Prediction。给定前文预测下一个 Token 的概率分布。这是一个自监督任务——不需要人工标注数据本身就是标签。数学上最小化交叉熵损失L -Σ log P(x_t | x_{t})。数据来源网页Common Crawl占比最大、代码GitHub、书籍、学术论文、Wikipedia、对话数据。数据量通常在 1-15T Token 之间。数据质量是关键——“垃圾进垃圾出”。现代预训练会进行严格的数据清洗去重MinHash/SimHash、过滤低质量内容分类器打分、毒性检测、PII 移除个人身份信息脱敏。数据配比不同数据源的混合比例对模型能力影响巨大。典型配比网页 50-60%、代码 15-20%、书籍 10-15%、学术 5-10%、对话 5%。代码数据对推理能力提升显著——这是 Llama 3 和 DeepSeek V3 都大幅增加代码比例的原因。Llama 3 的代码比例从 Llama 2 的 4.5% 提升到 17%推理能力大幅提升。Scaling LawChinchilla 定律指出给定计算预算 C最优模型大小 N ∝ C^0.5最优数据量 D ∝ C^0.5且 D_opt ≈ 20N。即 70B 模型需要约 1.4T Token 才能达到计算最优。但实际训练中许多团队使用远超 Chinchilla 最优的数据量——Llama 3 405B 用了 15T Token是 Chinchilla 最优的近 2 倍。这种过训练over-training策略虽然训练成本更高但推理效率更好——更小的模型达到同等性能推理成本更低。实际规模GPT-4 约 1.8T 参数、13T TokenLlama 3 405B 用 405B Dense、15T TokenDeepSeek V3 用 671B MoE、14.8T Token。预训练成本从 100 万到 1 亿美元不等是 SFT 和对齐的 1000-10000 倍。1.2 监督微调SFT学指令——从续写到对话预训练后的模型只会续写——给定前文继续生成。它不会听指令——你问法国首都是什么它可能续写成法国首都是什么这是一个有趣的问题……。SFT 的目标是让模型从续写机器变成对话助手。数据格式指令-回答对Instruction-Response Pairs。每条数据包含系统提示角色定义、用户指令问题/请求、助手回答期望输出。数据来源有三人工标注质量最高但最贵、GPT-4 生成Self-Instruct/Evol-Instruct性价比最高、开源数据集Alpaca/OpenHermes/Dolly免费但质量参差。关键洞察质量远比数量重要。Lima 论文证明仅用 1000 条高质量数据就能达到数万条普通数据的效果。原因在于预训练已经让模型学会了知识SFT 只需要教会格式——少量高质量示例足以。参数高效微调LoRALow-Rank Adaptation冻结原始权重只训练低秩分解矩阵A×B秩 r 远小于 d参数量仅增加 0.1-1%。QLoRA 进一步量化基座模型到 4-bit单张 H100 即可微调 70B 模型。这使得 SFT 的成本从数万美元降到数百美元。1.3 对齐学偏好——从能回答到回答得好SFT 后的模型能听指令了但回答质量参差不齐——可能冗长、可能偏题、可能有偏见、可能有害。对齐的目标是让模型学会什么是好的回答。对齐的核心挑战是好是主观的——不同人、不同场景对好的定义不同。对齐方法需要将人类偏好转化为可优化的数学目标。 二、五种对齐算法从 RLHF 到 GRPO 的演进2.1 RLHFPPO经典但复杂RLHF 是第一个成功的对齐方法由 OpenAI 在 InstructGPT 中提出。三步流程第一步SFT。在预训练模型上进行监督微调得到 SFT 模型策略模型。第二步训练奖励模型Reward Model。收集人类偏好数据对同一个问题生成多个回答让人类标注哪个更好。用这些数据训练一个奖励模型输入问题回答输出标量分数。奖励模型学习人类的偏好判断。第三步PPO 策略优化。用强化学习PPO 算法优化策略模型使其生成奖励模型给高分的回答。同时加入 KL 散度惩罚防止策略模型偏离 SFT 模型太远避免奖励黑客。RLHF 需要 4 个模型同时运行策略模型、参考模型SFT 冻结、奖励模型、价值网络Value Network估计状态价值。训练不稳定超参数敏感工程复杂度高。2.2 DPO绕过奖励模型DPODirect Preference Optimization的核心洞察奖励模型可以隐式地包含在策略模型中不需要显式训练。DPO 直接用偏好数据优化策略模型。给定偏好对y_w y_lDPO 的损失函数让模型增大好回答的概率、降低差回答的概率同时保持与参考模型的 KL 约束。数学上DPO 将 RLHF 的约束优化问题转化为简单的分类损失——无需奖励模型无需强化学习只需 2 个模型策略 参考。DPO 的优势训练更稳定分类损失 vs RL、工程更简单2 模型 vs 4 模型、效果与 RLHF 相当。2026 年DPO 已成为通用对齐的首选方法。2.3 GRPO推理涌现的催化剂GRPOGroup Relative Policy Optimization是 DeepSeek R1 的核心创新。与 RLHF/DPO 不同GRPO 不需要成对的偏好标注——它只需要问题和规则。核心流程对同一个问题模型生成一组回答如 64 个用规则打分如数学题的对/错、代码的测试通过/失败然后在组内进行相对排名——得分高的增强概率得分低的降低概率。GRPO 的突破性在于它让推理能力自发涌现。DeepSeek R1-Zero跳过 SFT直接在基座模型上用 GRPO展现出了惊人的行为——模型自发学会了思维链推理、自我验证、反思和纠错。这些能力从未被显式训练而是从纯强化学习中涌现。2.4 KTO 与 ORPO更简化的替代方案KTOKahneman-Tversky Optimization只需要好/坏标签而非成对偏好。这大幅降低了标注成本——标注一个回答好或坏比比较两个回答哪个更好容易得多。KTO 基于前景理论Prospect Theory对损失比收益更敏感。ORPOOdds Ratio Preference Optimization将 SFT 和对齐合并为一步——在指令微调的同时用胜率比Odds Ratio作为对齐信号。ORPO 只需要 1 个模型数据需求最低适合资源有限的场景。 三、四大实战配方、训练基础设施与未来趋势3.1 四大实战配方GPT-4 配方RLHF 经典。预训练 → SFT → RLHF(PPO)。OpenAI 的经典配方4 个模型协同训练。效果最好但最复杂只有顶级团队才能稳定训练。Llama 3 配方DPO 标杆。预训练 → SFT → DPO → 迭代。Meta 的开源标杆DPO 替代 RLHF 更稳定。多轮迭代DPO → 评估 → 新数据 → 再 DPO。Llama 3 405B 成为开源最强模型。DeepSeek R1 配方GRPO 突破。预训练 → GRPO无 SFT。纯 RL 推理涌现模型自发学会思维链、自我验证、反思。2025 年最大惊喜证明 RL 可以替代 SFT对齐的复杂流程。Claude 4 配方Constitutional AI。预训练 → SFT → CAI → RLHF。Anthropic 的安全优先路线AI 自我批评修正减少有害输出。3.2 分布式训练基础设施训练万亿参数模型需要数千 GPU 协同工作。三大并行策略数据并行数据分片到多 GPU每 GPU 持有完整模型副本梯度同步。ZeRO/FSDP 优化显存——将优化器状态、梯度、参数分片到不同 GPU显存占用降低数倍。张量并行模型矩阵切分到多 GPU每 GPU 持有部分权重。通信密集适合单节点内NVLink 高带宽。Megatron-LM 是主流框架。流水线并行模型层切分到多 GPU数据像流水线通过。有气泡开销GPU 空闲等待适合跨节点。微批次Micro-batch可以减少气泡。实际训练中三种并行策略组合使用3D 并行 数据并行 × 张量并行 × 流水线并行。DeepSeek V3 的训练使用了 2048 张 H800 GPU3D 并行 ZeRO-1 FP8 混合精度。3.3 2026 四大训练趋势合成数据训练。用强模型生成训练数据。SFT 数据 50% 来自合成。Self-Instruct / Evol-Instruct 方法让合成数据质量接近人工标注成本降低 10-100x。合成数据不是偷懒——它解决了人类标注的规模瓶颈。推理能力训练。GRPO/强化学习训练推理。DeepSeek R1 证明纯 RL 可以涌现推理无需人工标注思维链。这是 2025-2026 年最热的训练方向——从教模型回答到教模型思考。Constitutional AI。AI 自我批评修正。减少对人类标注的依赖。Claude 4 的核心方法——模型根据宪法一组原则自我评估和修正输出。安全对齐的新范式。多模态统一训练。图像视频音频统一预训练。原生多模态非拼接。GPT-4o/Gemini/MiMo 的趋势——模态融合带来新的 Scaling 机会。 总结速查卡三阶段流水线阶段目标数据量成本核心方法预训练学知识1-15T Token$1M-$100MNext Token PredictionSFT学指令1K-100K 对$100-$10K交叉熵 LoRA/QLoRA对齐学偏好10K-1M 对$1K-$100KRLHF/DPO/GRPO/KTO/ORPO五种对齐算法方法模型数数据需求稳定性推理提升适用场景RLHF(PPO)4偏好对不稳定中通用对齐DPO2偏好对稳定中通用对齐首选GRPO1-2问题规则稳定强推理任务KTO2好/坏标签稳定中低成本对齐ORPO1指令标签稳定中SFT对齐一步一句话总结LLM 训练的三阶段流水线是预训练学知识1-15T Token$1M-$100M→ SFT学指令1K-100K 对$100-$10K→ 对齐学偏好10K-1M 对$1K-$100K。预训练用 Next Token Prediction 让模型学会语言和世界知识SFT 用指令-回答对让模型从续写机器变成对话助手对齐用人类偏好让模型从能回答变成回答得好。五种对齐算法从 RLHF 演进到 GRPORLHFPPO需要 4 个模型但理论完备DPO 绕过奖励模型只需 2 个模型成为通用对齐首选GRPO 用组内排名无需成对标注在推理任务上效果最强DeepSeek R1 里程碑KTO 只需好/坏标签降低标注成本ORPO 将 SFT 和对齐合并为一步。四大实战配方GPT-4 用 RLHF 经典配方Llama 3 用 DPO 成为开源标杆DeepSeek R1 用 GRPO 实现纯 RL 推理涌现Claude 4 用 Constitutional AI 安全优先。训练不是一次性工程而是持续迭代的数据飞轮——更多数据→更好模型→更好数据→更好模型。参考链接Training Compute-Optimal LLMs / Chinchilla (Hoffmann et al., 2022)InstructGPT / RLHF (Ouyang et al., 2022)DPO (Rafailov et al., 2023)DeepSeek R1 / GRPO (DeepSeek, 2025)Constitutional AI (Anthropic, 2022)系列预告第 04 篇将深入 LLM 的推理部署——从 Prefill/Decode 到 KV Cache 管理从量化到推测解码拆解 LLM 从实验室到生产的关键工程。