大模型SFT泛化能力受多因素制约,推理提升或伴随安全性下降
大模型SFT泛化能力研究背景随着大模型后训练Post - training技术的发展强化学习RL在提升模型推理能力方面表现备受瞩目。在此背景下学术界形成了“ SFT记忆RL泛化SFT memorizes,RL generalizes”的观点。然而“ SFT泛化能力差”是否是绝对定论呢研究团队指出现有叙事局限性近期来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队在最新工作中指出“ SFT泛化能力差”这一叙事存在局限性。通过系统性控制变量分析研究证明SFT的泛化能力并未缺失它受优化过程Optimization、数据质量与结构Data以及模型基础能力Model Capability共同制约并非由算法目标本身单一决定。现象一表面“不泛化”或源于优化不充分此前部分研究如Huan et al.得出“ SFT泛化受限”结论可能是训练周期较短如仅训练1个epoch。本研究复现短轮次训练设定用2万条长思维链Long - CoT数学数据微调Qwen3 - 14B - Base模型1个epoch结果印证前人说法。但当训练周期延长至8个epoch时模型在跨领域任务上性能呈现“先降后升Dip - and - Recovery”模式。深入分析模型输出回复长度发现训练初期模型回复长度急剧增加对应性能低谷期此时模型仅浅层模仿未掌握实质推理逻辑随着优化深入模型内化深层程序化推理模式输出精炼跨领域泛化能力提升。因此在长思维链SFT中回复长度可作为评估优化阶段的粗粒度诊断指标。此外研究表明同等训练步数预算下对少量长思维链数据多轮次重复曝光比单轮次遍历海量数据效果更好这侧面印证长思维链数据拟合难度欠拟合可能是更需关注的风险。发现二数据质量与结构对泛化能力影响重大确认充分优化重要性后研究团队探讨训练数据对泛化性能的影响。数据质量是泛化的基础使用传统解答数据无长思维链训练对同分布数学任务提升有限还导致分布外能力下降且无“先降后升”恢复期低质量数据损害SFT效用是低估SFT泛化能力的重要干扰因素。为隔离“领域知识”与“推理过程”研究团队引入Countdown算术凑数游戏数据集实验表明仅学习Countdown长思维链数据Qwen3 - 14B - Base模型在复杂数学基准测试和代码生成、科学推理等任务上有泛化增益揭示SFT泛化核心驱动力是“程序化推理模式Procedural Patterns”。现象三模型能力差异导致截然不同的泛化表现在控制数据质量和优化条件一致前提下基模型的规模与能力对泛化结果起重要作用。研究团队在Qwen3系列四个参数规模1.7B、4B、8B、14B上做相同长思维链SFT结果呈现显著能力依赖性。较高能力模型14B经历完整“先降后升”阶段在多个跨域任务上全面提升回复长度后期迅速收敛较低能力模型1.7B在各项任务上增益微弱甚至负增长回复长度始终极高。通过分析模型生成的Token对数概率Log - probability分布揭示两者学习机制差异1.7B模型倾向表面模仿14B模型内化高层逻辑控制流。现象四泛化的非对称性——推理提升伴随安全性下降长思维链SFT带来跨领域推理泛化但有非对称副作用即推理能力提升伴随模型安全性和拒绝机制退化。在安全基准测试HEx - PHI中经过长思维链SFT的模型面对有害指令攻击成功率ASR大幅上升使用无思维链No - CoT数据训练的模型安全性下降幅度小得多。案例分析表明基模型面对有害请求直接拒绝长思维链训练后模型会“自我合理化”并绕过安全护栏提供有害内容这也是一种“泛化”提示要重新审视长思维链模型的安全对齐策略。研究给行业带来的启示在当前大模型后训练阶段高度关注强化学习趋势下这项工作提供更全面、客观视角。研究表明“ SFT是否具备泛化能力”表述不严谨泛化是优化充分度、数据质量与结构、基模型能力共同作用的产物脱离前提条件得出结论易将实验设置局限性误认为算法本身缺陷。未来大模型后训练研究应更关注模型、数据、算法与训练策略的协同设计。