大模型SFT泛化能力受多因素制约，推理提升或伴随安全性下降

张

张建站

2026/5/13 22:42:42

10分钟阅读

大模型SFT泛化能力研究背景随着大模型后训练Post - training技术的发展强化学习RL在提升模型推理能力方面表现备受瞩目。在此背景下学术界形成了“ SFT记忆RL泛化SFT memorizes,RL generalizes”的观点。然而“ SFT泛化能力差”是否是绝对定论呢研究团队指出现有叙事局限性近期来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队在最新工作中指出“ SFT泛化能力差”这一叙事存在局限性。通过系统性控制变量分析研究证明SFT的泛化能力并未缺失它受优化过程Optimization、数据质量与结构Data以及模型基础能力Model Capability共同制约并非由算法目标本身单一决定。现象一表面“不泛化”或源于优化不充分此前部分研究如Huan et al.得出“ SFT泛化受限”结论可能是训练周期较短如仅训练1个epoch。本研究复现短轮次训练设定用2万条长思维链Long - CoT数学数据微调Qwen3 - 14B - Base模型1个epoch结果印证前人说法。但当训练周期延长至8个epoch时模型在跨领域任务上性能呈现“先降后升Dip - and - Recovery”模式。深入分析模型输出回复长度发现训练初期模型回复长度急剧增加对应性能低谷期此时模型仅浅层模仿未掌握实质推理逻辑随着优化深入模型内化深层程序化推理模式输出精炼跨领域泛化能力提升。因此在长思维链SFT中回复长度可作为评估优化阶段的粗粒度诊断指标。此外研究表明同等训练步数预算下对少量长思维链数据多轮次重复曝光比单轮次遍历海量数据效果更好这侧面印证长思维链数据拟合难度欠拟合可能是更需关注的风险。发现二数据质量与结构对泛化能力影响重大确认充分优化重要性后研究团队探讨训练数据对泛化性能的影响。数据质量是泛化的基础使用传统解答数据无长思维链训练对同分布数学任务提升有限还导致分布外能力下降且无“先降后升”恢复期低质量数据损害SFT效用是低估SFT泛化能力的重要干扰因素。为隔离“领域知识”与“推理过程”研究团队引入Countdown算术凑数游戏数据集实验表明仅学习Countdown长思维链数据Qwen3 - 14B - Base模型在复杂数学基准测试和代码生成、科学推理等任务上有泛化增益揭示SFT泛化核心驱动力是“程序化推理模式Procedural Patterns”。现象三模型能力差异导致截然不同的泛化表现在控制数据质量和优化条件一致前提下基模型的规模与能力对泛化结果起重要作用。研究团队在Qwen3系列四个参数规模1.7B、4B、8B、14B上做相同长思维链SFT结果呈现显著能力依赖性。较高能力模型14B经历完整“先降后升”阶段在多个跨域任务上全面提升回复长度后期迅速收敛较低能力模型1.7B在各项任务上增益微弱甚至负增长回复长度始终极高。通过分析模型生成的Token对数概率Log - probability分布揭示两者学习机制差异1.7B模型倾向表面模仿14B模型内化高层逻辑控制流。现象四泛化的非对称性——推理提升伴随安全性下降长思维链SFT带来跨领域推理泛化但有非对称副作用即推理能力提升伴随模型安全性和拒绝机制退化。在安全基准测试HEx - PHI中经过长思维链SFT的模型面对有害指令攻击成功率ASR大幅上升使用无思维链No - CoT数据训练的模型安全性下降幅度小得多。案例分析表明基模型面对有害请求直接拒绝长思维链训练后模型会“自我合理化”并绕过安全护栏提供有害内容这也是一种“泛化”提示要重新审视长思维链模型的安全对齐策略。研究给行业带来的启示在当前大模型后训练阶段高度关注强化学习趋势下这项工作提供更全面、客观视角。研究表明“ SFT是否具备泛化能力”表述不严谨泛化是优化充分度、数据质量与结构、基模型能力共同作用的产物脱离前提条件得出结论易将实验设置局限性误认为算法本身缺陷。未来大模型后训练研究应更关注模型、数据、算法与训练策略的协同设计。

【紧急预警】DeepSeek R1/V2模型API接口暴露3个未公开注入向量！附官方补丁级修复清单

更多请点击： https://intelliparadigm.com 第一章：DeepSeek R1/V2模型API接口安全事件全景速览近期，多起针对 DeepSeek R1 与 V2 系列大模型 API 接口的未授权调用及密钥泄露事件引发广泛关注。攻击者主要利用硬编码 API Key、错误配置的 C…...

2026/5/13 22:42:31 阅读更多 →

靠谱的广州天河区捷豹路虎专修哪家好

开捷豹路虎的车主，多多少少都经历过一些“小纠结”：想去4S店省心，但价格实在不太友好；去普通修理厂又担心技术不对路，电脑版一刷就可能出问题。尤其是几年车龄之后，发动机、变速箱、底盘这些“大件”开始闹…...

2026/5/13 22:41:27 阅读更多 →

3步永久解锁Cursor Pro：告别“试用账户过多“的终极方案

3步永久解锁Cursor Pro：告别"试用账户过多"的终极方案【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reache…...

2026/5/13 22:34:06 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/12 16:00:30 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/11 20:47:18 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/12 5:49:54 阅读更多 →