纽约大学:同一个AI模型,为什么换个“训练方式“就像换了一个大脑?
这项由纽约大学New York University完成的研究于2026年5月发表论文编号为arXiv:2605.21803v1有兴趣深入探究的读者可通过该编号在arXiv平台上查阅完整论文。如果你曾经好奇过为什么同一块面团交给不同的面包师最终烤出来的面包口感竟然截然不同——即便他们用的是同一个烤箱、同一份食谱花的时间也差不多——那么这篇论文想告诉你的正是AI训练领域中一个几乎一模一样的谜题。故事的主角是大型语言模型也就是驱动ChatGPT这类AI的技术核心而谜题的关键藏在一个长期被忽视的训练细节里**优化器**。---一、被遗忘的揉面手法优化器究竟是什么在AI模型的训练过程中有三个要素长期被视为决定模型好坏的铁三角模型有多大参数数量、用了多少数据、花了多少计算资源。研究者们根据这三个要素总结出所谓的缩放定律Scaling Laws——简单说就是模型越大、数据越多、算力越强性能就越好而且这个规律相当稳定可以用来预测。但这套铁三角里有一个东西一直被当作不变量悄悄忽略掉了那就是优化器。优化器是什么打个比方如果把训练AI比作揉面包面团那么数据就是面粉和水模型结构就是面团最终的形状模具而优化器就是面包师揉面的手法。同样的材料和模具有人用普通揉法有人用法式折叠法有人用机器搅拌——最终面包的内部气孔结构、口感层次会大相径庭即便表面看起来都烤熟了外观相差无几。纽约大学的这支研究团队就在追问这样一个问题不同的揉面手法优化器会不会让同一个AI架构产生根本不同的内部结构而且这种差异会不会在验证指标也就是模型测试成绩上完全看不出来却在更深层的表示空间里留下清晰的痕迹答案是会的而且差异之大超出预期。---二、给AI做内部CT扫描谱分析是什么要理解研究团队的发现得先搞清楚他们用的CT扫描仪——谱分析Spectral Analysis。语言模型内部有一种叫做前馈网络Feed-Forward NetworkFFN的结构可以把它理解为模型处理信息时的工作台。每个词汇经过这个工作台时都会被映射到一个高维空间里可以粗略地想象成一个超级复杂的坐标系然后模型在这个空间里进行各种计算和理解。谱分析本质上就是看这个坐标系里信息是如何分布的。具体来说研究者们会计算这个高维空间的特征值分布Eigenspectrum——可以把它想象成一个房间里的声音频谱分析有些频率的声音很响亮信息很集中有些频率几乎是寂静的信息很稀疏。基于这个频谱研究团队使用了两种不同的有效维度衡量方式。第一种叫做软秩Soft Rank它更像是统计房间里所有频率的平均热闹程度对那些微弱的声音也很敏感反映的是信息在空间中的整体分散程度。第二种叫做硬秩Hard Rank它更专注于那几个最响亮的主要频率衡量的是信息是否集中在少数几个主导方向上对空间的有效利用更加敏感。这两种指标可以统一在一个叫做雷尼熵Rényi Entropy的数学框架里——你不需要理解这个名字只需要知道它提供了一把可以调节灵敏度的旋钮旋钮拧向一边你就更关注细微的弱信号旋钮拧向另一边你就更关注强势的主导信号。软秩和硬秩分别对应这把旋钮的两个特定位置。研究团队还特别关注一个叫做硬软秩不对称性Hard-Soft Rank Asymmetry的指标简单说就是软秩和硬秩之间的差距。差距越大说明工作台上虽然有很多频道在运作软秩高但真正承担主要工作的强势频道却很少硬秩低——这意味着大量的空间维度其实是在划水没有被有效利用起来。---三、同一架构截然不同的内部世界核心发现研究团队在两种规模的GPT风格语言模型上一种约1.6亿参数一种约3.5亿参数做了大量实验。他们固定模型架构只改变优化器然后系统地比较不同揉面手法下模型内部的谱结构。参与比较的优化器主要有四种。第一种是AdamW这是目前业界使用最广泛的标准优化器相当于最普通的揉面手法。第二种是Muon它在每次更新参数时会做一种叫做正交化的处理可以理解为揉面时特别注重让每个方向的力量都均匀分布、互不干扰。第三种是NorMuon在Muon的基础上还加了逐神经元的归一化处理管控更加精细。第四种是Dion它也使用正交化更新但可以通过调节一个秩分数参数来控制每次更新时动用多大比例的维度从而让研究者能够精确地分离正交化本身和更新维度数量这两个因素的影响。实验结果令人震惊。在扩展FFN宽度也就是给工作台增加更多维度时各优化器的硬秩增长速度以幂律指数β来衡量出现了天壤之别。对AdamW来说整体硬秩缩放指数只有0.29而Muon达到了0.82NorMuon达到了0.80高性能的Dion秩分数1/2也有0.79。换句话说每当工作台宽度翻倍Muon能把大约82%的新增空间转化为真正有效的主导工作维度而AdamW只能转化不到30%——剩下的70%虽然看起来存在实际上却在打酱油。软秩方面的差距则小得多各优化器的指数集中在0.66到1.01之间说明在拓展整体信息分布面积这件事上优化器的差异不那么明显。这种软硬秩的不对称性对不同优化器来说差异极大。AdamW的不对称性高达0.37而Muon和Dion1/2只有约0.14。换句话说AdamW给工作台增加新维度时主要是扩大了背景噪声的覆盖面而不是真正增加了能干活的主力频道。Muon则几乎同步地增长两类容量。---四、用不同频率的词来检验HEAD、MID、TAIL三个世界语言中词汇出现的频率遵循一个叫做齐夫定律的规律——少数词极其常见比如的了是而大量词非常罕见比如各种专业术语、地名、人名。研究团队意识到把所有词混在一起计算可能会掩盖重要差异于是他们按词频把词汇分成三组HEAD最常见的那批词占总使用量的约三分之一但只有30种词汇类型、MID中等频率约1215种词汇类型和TAIL低频词约4.9万种词汇类型但每种词本身出现得很少。这个分法揭示了一幅更细腻的图景。在TAIL低频词区域AdamW的硬秩缩放指数只有0.44而Muon和NorMuon达到了惊人的1.02和1.04——几乎是线性增长意味着每增加一倍工作台宽度有效主导维度就几乎翻倍。两者的差距达到了2.3倍。在MID中频词区域差距更加悬殊。AdamW的硬秩指数只有0.24而Muon和NorMuon分别达到0.93和0.95。在HEAD高频词区域差距相对较小各优化器的指数在0.26到0.59之间而且拟合质量也更差意味着这个区域的规律性本身就不那么稳定。研究团队因此认为MID和TAIL区域才是最能反映优化器差异的诊断性区域。从AdamW切换到Muon时MID区域硬秩指数的提升幅度0.69是HEAD区域0.33的约2.1倍而TAIL区域的提升0.58也远超HEAD。这说明Muon类优化器带来的最大收益恰恰集中在AI最难学好的那些罕见词上——这对于语言模型来说意义重大因为正是对罕见知识的掌握区分了平庸的模型和优秀的模型。---五、同样的考试分数不同的学习方式匹配损失不等于匹配结构研究团队随后面对一个非常关键的质疑会不会只是因为AdamW训练得不够久才导致谱容量偏低只要训练时间足够长AdamW是不是也能达到同样的效果为此他们设计了一个精妙的对照实验把AdamW的训练步数从6000步延长到12000步使其验证困惑度衡量语言模型预测能力的指标越低越好与秩分数1/16的Dion在6000步时的表现相当——也就是说两个模型在考试成绩上持平。然而当他们打开模型内部做谱分析时发现了一个令人不安的结果。AdamW在12000步时整体硬秩缩放指数从0.29直接崩溃到了0.03对应的拟合优度R?只有0.01——这意味着宽度与有效维度之间的幂律关系几乎完全消失了不再是一条规律的曲线而是一团散点。与此同时软秩指数只是从0.66温和地降到了0.58硬软秩不对称性却从0.37飙升到了0.55。相比之下Dion1/16在6000步时维持了可靠的幂律关系硬秩指数0.50各频率区间的拟合优度均保持在0.75以上。从动态轨迹来看图3所呈现的内容AdamW的TAIL区域硬秩缩放指数在大约4000步附近达到峰值随后开始持续下滑。而软秩指数则相对稳定这导致硬软秩不对称性随着训练时间的推移持续扩大。更深层的原因在于更宽的工作台更多FFN维度在延长训练后其主导维度容量反而比窄工作台丢失得更快打破了宽度越大容量越高这一缩放定律成立所必需的单调顺序。具体而言在TAIL区域8倍宽度的模型的硬秩在8000步时就跌落到了2倍宽度模型之下而到12000步4倍宽度的模型反而远远领先于8倍宽度模型。这彻底瓦解了幂律拟合的基础。研究团队还专门排除了学习率调参这一解释。他们分别在AdamW的三个学习率0.001、0.003、0.006和Muon的三个学习率0.01、0.02、0.04下进行了实验发现AdamW在任何学习率下的TAIL硬秩最高指数0.44始终低于Muon在任何学习率下的最低指数0.80——两者的区间完全不重叠不存在任何重合。结论非常清晰即便考试成绩相同两个模型的内部学习方式是根本不同的。优化器塑造的不仅是训练速度更是知识在模型内部的组织结构。---六、秩分数是一个精准旋钮Dion实验的启示Dion优化器的特别之处在于研究者可以通过调节秩分数参数r精确控制每次参数更新时动用多大比例的正交化维度。这相当于给揉面机装了一个精密调速旋钮让研究者能够系统地测试正交化本身和更新维度数量各自的贡献。实验结果显示随着秩分数从1/2逐步降低到1/16TAIL区域的硬秩缩放指数从0.88单调地降到了0.40——后者与AdamW几乎相当。与此同时软秩指数的下降要缓慢得多从0.95降到0.72而且在整个区间内始终显著高于AdamW0.62。这说明了一件重要的事单纯保留正交化结构无论秩分数多低Dion始终使用正交化更新并不足以维持高效的主导维度转化——更新所覆盖的维度数量同样至关重要。在极低秩分数下正交化手法仍然能够维持较高的弥散性谱容量软秩但无法将新增的工作台宽度有效转化为强势的主导工作频道硬秩。从不对称性角度来看TAIL区域的硬软秩不对称性从r1/2时的0.07上升到r1/16时的0.31而这种不对称性的上升在TAIL区域最为显著在HEAD区域则是非单调的进一步确认了秩瓶颈主要是一个低频词主导维度容量上限的问题而非均匀影响所有词频。---七、缩放到更大模型规律依然成立上述发现是否只是小模型的特有现象研究团队在3.5亿参数的更大模型上重复了核心实验在四个FFN宽度点上进行扫描结果显示规律完全一致。Muon在350M模型上的TAIL硬秩指数达到了1.13R?0.94NorMuon为0.88R?0.98而AdamW仍然只有0.39R?0.82Dion1/16为0.48。AdamW在所有尺寸下都维持了正的TAIL不对称性160M为0.18350M为0.19而Muon在350M时甚至出现了轻微的负不对称性-0.13意味着主导维度容量的增长速度开始超过弥散性容量——这是一种更加高效的容量利用形态。---八、换个注意力结构架构干预的效果比不上换优化器研究团队进一步想知道优化器带来的谱缩放差异与直接改变模型架构相比孰轻孰重他们选择了一种特定的架构干预在保持总参数量不变的前提下把注意力头的数量从12个减少到6个每个头的维度相应增大即提高了每个头的注意力秩。这种干预来自近期关于注意力头质量与数量权衡的研究是一种有明确理论动机的架构调整。比较结果非常清晰在30个频率区间×软硬秩的组合中有28个组合里优化器带来的最大增益都超过了架构干预带来的增益。唯一的例外是HEAD区域的硬秩在那里AdamW切换到6头架构的增益0.345和Muon切换到6头架构的增益0.651都超过了最佳优化器切换带来的增益0.330。更有趣的是架构干预的效果本身也是优化器依赖的。以TAIL硬秩为例将注意力头从12个减少到6个在AdamW下带来0.313的提升在Muon下带来0.367的提升而在NorMuon和Dion变体下几乎没有效果绝对值≤0.023。同样的架构改动对不同优化器的回报差异巨大。更深层的现象是架构干预改变了哪个优化器最匹配这个架构。在12头原始架构下NorMuon在六个频率区间中的五个里拥有最高的缩放指数但在6头架构下Muon在全部六个区间里都夺得最高。架构变了最佳优化器也跟着变了。---九、去掉位置编码另一种架构干预同样是优化器依赖的研究团队还在350M模型上测试了第二种架构干预移除RoPE位置编码RoPE是一种让模型感知词序的机制使用无位置编码的NoPE设计。结果再次证明架构变化的效果是通过优化器几何来表达的而非独立作用的。移除RoPE对Muon和NorMuon产生了方向相反的效果。对Muon而言移除位置编码使HEAD区域的硬秩指数从1.083升高到1.286增加了0.203同时使MID和TAIL区域的指数分别下降了0.264和0.291——也就是说NoPE让Muon把容量转移向了高频词同时削弱了对低频词的覆盖。而对NorMuon来说移除位置编码使所有三个频率区间的硬秩指数都下降了HEAD区域下降幅度最大从1.023降到0.656下降了0.367。不对称性方面的变化也印证了这一点在Muon下NoPE使MID和TAIL区域的硬软秩不对称性从负值-0.085和-0.129翻转为正值0.096和0.091在NorMuon下三个区间的不对称性都有所上升HEAD区域上升幅度最大从-0.045升至0.315。从效果量的角度对比在TAIL硬秩上AdamW切换到Muon带来的增益|Δβ|0.74是注意力头干预效果的约2.0倍是RoPE移除效果的2.5至5.2倍。优化器切换始终是所有测试干预中效果最大的单一操作。为了更深入理解NoPE干预的机制研究团队还做了一项位置依赖性分析计算了FFN非线性变换前后序列位置对激活方差的解释比例通过一个类似方差分析的指标对称比来衡量。结果显示在RoPE设置下所有优化器的FFN都表现出HEAD词汇受到更强位置处理的偏向即位置信息在HEAD词汇中被放大更多。但切换到NoPE后Muon和NorMuon都翻转了这个偏向转而对TAIL词汇施加更强的位置处理放大——而AdamW没有发生这种翻转在NoPE下仍然保持HEAD偏向。此外位置处理的深度分布也发生了改变在RoPE下Muon的峰值位置处理出现在较深的层第8、23、23、23层在NoPE下峰值移动到了最早的层第2、2、1、1层。NorMuon也出现了类似但更分散的前移。这说明当外部位置信号消失时不同优化器会用不同的深度分布策略来重新组织对位置信息的内部处理。---十、训练稳定性的边界哪些架构只有特定优化器才能驾驭研究团队还做了一组有趣的补充实验测试优化器是否会影响模型架构设计的可行范围本身——而不仅仅是在同一架构内的容量利用效率。他们使用了部分后归一化Partial PostLN配置也就是让模型的前k%的层使用后归一化其余层使用前归一化。后归一化架构在大规模训练中以难以稳定训练著称但理论上可能具有一些前归一化所不具备的优势。实验结果清楚地划出了一条可训练边界。在学习率3×10??下AdamW可以训练前25%层使用后归一化的配置困惑度41.9但在前50%层使用后归一化时就直接发散崩溃了。即便将学习率大幅降低到10??来避免崩溃前75%层使用后归一化配置下AdamW的困惑度高达106.7远远落后于同样配置下Muon的40.9和NorMuon的32.8。Muon和NorMuon可以稳定训练前75%层使用后归一化的配置并达到实用的困惑度但所有优化器对全部使用后归一化仍然无能为力。NorMuon由于额外的逐神经元归一化在最激进的部分后归一化配置75%下表现优于Muon说明更精细的参数尺度控制在梯度放大最严重时能提供额外稳定性。Dion变体秩分数1/2和1/16均可训练50%后归一化配置但在75%时失败——这与谱缩放实验中的规律有所不同秩分数对谱容量有显著影响但对可训练边界的影响较小。这说明正交化更新结构对稳定极端归一化配置有帮助但这种稳定性与秩分数关系不大而谱容量的高效转化则与秩分数密切相关。两者是独立的效应通过不同的机制发挥作用。---说到底这篇研究想传达的核心信息是AI模型的真实能力并非只由它有多大、用了多少数据来决定——训练它的方式也就是优化器的选择会从根本上塑造模型内部知识的组织结构。同一个模型用Muon训练和用AdamW训练在考试成绩相差不大的情况下内部却可能是截然不同的两个世界。一个能把更多工作台空间转化为真正有效的工作频道特别是在处理罕见词汇时另一个则把大量空间浪费在了低效的弥散性维度上而且随着训练时间延长这种浪费还会愈演愈烈。更关键的是架构设计的效果也不是独立于优化器存在的——同样的架构改动对不同优化器可能意味着完全不同的收益甚至连最适合这个架构的优化器都会随架构的改变而改变。这对AI研究者意味着未来在设计和比较模型时不能再把优化器当作一个背景设置忽略掉而应该把它视为和架构、数据量同等重要的设计轴。对普通用户来说这个发现提醒我们当两个AI系统声称在同一基准上表现相当时它们内部对知识的组织方式可能有着深刻的差异而这些差异会在那些罕见的、边缘的情境下暴露出来——恰恰是在你最需要AI表现稳定的时候。对未来感兴趣的读者不妨思考这样一个问题如果优化器能如此深刻地改变模型内部结构那么是否存在专门针对某类任务或知识分布量身定制的优化器或者能不能在训练过程中动态切换优化器让模型在不同训练阶段采用不同的揉面手法这些都是这项研究自然延伸出的有趣方向。感兴趣的读者可以通过arXiv编号2605.21803查阅完整论文其中详尽的附录包含了大量额外实验数据和深度分析。---QAQ1优化器和模型架构哪个对AI性能影响更大A纽约大学的这项研究发现在大多数测试场景中切换优化器例如从AdamW换成Muon对模型内部谱容量的影响大于改变注意力头数量等架构干预。具体来说在TAIL低频词的硬秩缩放上优化器切换的效果是注意力头干预的约2倍是移除位置编码效果的2.5倍以上。但两者的作用是相互耦合的架构改变会影响哪种优化器最为匹配不能简单地说谁更重要。Q2AdamW训练时间加倍能弥补和Muon的差距吗A不能。研究团队将AdamW的训练步数从6000步加倍到12000步使其测试困惑度与低秩Dion优化器持平但内部谱结构却进一步恶化。AdamW的整体硬秩缩放指数从0.29降到了几乎为零的0.03更宽的模型的有效主导维度反而比窄模型丢失得更快彻底瓦解了宽度与容量之间的幂律关系。因此延长训练时间不仅不能弥补差距反而会加剧AdamW的谱容量崩溃。Q3Muon优化器在稀有词学习上为什么比AdamW强这么多A从谱分析结果来看Muon类优化器在每次参数更新时使用正交化处理使得更新方向更加均衡互不干扰因此更能将新增的工作台维度转化为真正承担主要工作的主导频道。AdamW则倾向于把新增维度扩散到弥散性的低效方向上。稀有词TAIL区域的学习恰恰最依赖这种主导维度的高效扩展因为稀有词出现次数少、学习信号弱必须有更高效的表示结构来捕捉和存储相关知识。