这项由澳大利亚国立大学与字节跳动Seed团队联合开展的研究以预印本形式发布于2026年4月16日论文编号为arXiv:2604.15311。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。一、当AI绘图遇上偏科难题每当你在网上看到那些令人叹服的AI生成图像背后的图像生成模型经过了大量的训练学会了如何把一团白噪声一步一步雕刻成精美的画面。然而这类模型并不总是能精准理解人类的喜好——有时候画出来的东西虽然看起来不错但就是差那么一口气要么色彩不够对味要么物体摆放位置别扭要么数量对不上。为了解决这个问题研究人员发展出了一套叫做偏好对齐的技术简单来说就是让AI模型更好地迎合人类审美和指令。这就好比训练一位厨师厨师原本会做各种菜但要让他做出顾客真正喜欢的味道就需要通过顾客的反馈不断调整烹饪方式。在这个领域里目前主要有两大流派的训练方法。第一种流派借鉴了语言模型的训练思路用一种叫做策略梯度以GRPO为代表的方法通过反复试错来调整模型就像厨师靠不断试吃顾客的反馈来改进菜品。第二种流派则走了一条更直接的路因为图像生成过程在数学上是连续可微的所以可以把顾客满意度的信号直接通过整个生成过程反向传递告诉模型每一步到底哪里出了问题。后者被称为直接梯度法理论上更精准、收敛更快。但问题来了。图像生成不是一步完成的而是像一部电影制作一样分成许多工序。以当前顶尖的Flux模型为例生成一张图片往往需要25步甚至更多步骤。早期步骤就像电影的剧本创作阶段决定了画面的整体构图和布局晚期步骤就像后期特效阶段负责细节打磨。如果想把顾客不满意的信号从最终的图像一路传回到早期步骤梯度需要穿越漫长的计算链条会导致两个严重问题一是内存爆炸——要记录每一步的中间状态需要天文数字的显存二是梯度爆炸——信号在传递过程中会越来越大或越来越小最终变得毫无意义就像一条电话信号太弱的线路传到终点时已经是噪音。正因为如此现有的直接梯度方法大多只能在生成过程的最后几步上做文章对于决定整体构图的早期步骤束手无策。这就相当于你只能调整厨师最后的摆盘工序却无法干预食材选择和烹饪火候效果自然大打折扣。来自澳大利亚国立大学和字节跳动Seed团队的研究人员决心正面突破这一瓶颈。他们提出了LeapAlign一种全新的对齐训练方法核心思路是与其让梯度跋涉整条漫长的生成路径不如在路径上找两个关键节点用跨越式跳跃把它们直接连接起来构建一条只有两步的超级捷径。沿着这条捷径梯度可以轻松到达生成过程的任意位置包括那些至关重要的早期步骤。二、流匹配模型AI绘图的底层逻辑在深入了解LeapAlign的设计之前有必要先理解它所针对的流匹配模型究竟是怎么工作的。流匹配模型的核心思想可以用一个制冰的比喻来理解。假设有一大盆浑浊的热水这代表随机噪声数学上叫高斯噪声和一块精雕细琢的透明冰雕这代表一张高质量的图片。流匹配模型学习的是一条从热水到冰雕的变化路径——它在每一个时间点预测水应该朝哪个方向流动、以什么速度凝固最终让混沌的噪声一步步变成有序的图像。这个朝哪个方向流动就是所谓的速度场。用数学语言说在时间步t处中间状态$x_t$可以表达为干净图像$x_0$和纯噪声$x_1$的加权组合$x_t \alpha_t x_0 \beta_t x_1$其中$\alpha_t$和$\beta_t$是随时间变化的权重系数。神经网络$v_\theta$的任务就是预测这个速度场训练目标是让预测的速度和真实速度尽可能接近。特别地当采用整流流匹配这一最简化的版本时$\alpha_t 1-t$$\beta_t t$速度就等于$x_1 - x_0$路径是一条直线。这种简洁的设计赋予了流匹配模型一个极其有用的性质从任意时间步k处的状态$x_k$可以直接用一步公式估算另一个时间步j处的状态即$\hat{x}_{j|k} x_k - (k-j) \cdot v_\theta(x_k, k)$。这个公式就是LeapAlign的基石——它允许模型跨越多个时间步直接从一个位置跳到另一个位置而不需要逐步前进。三、LeapAlign的跃迁捷径如何用两步走完全程现在到了核心设计部分。LeapAlign的运作方式就像是在漫长的生产流水线上安装了一条内部专用快速通道。每次训练迭代时LeapAlign首先完整地运行一次图像生成过程从纯噪声开始经历全部25步或更多步生成一张完整的图像。这个完整生成过程产生了一系列中间状态就像制冰过程中每一分钟拍下的照片从热水到冰雕的每个阶段都有记录。然后从这串中间状态中随机选取两个时间点k和j且k比j更靠近噪声端k j。这两个时间点就是捷径的两个锚点。接下来构建跃迁轨迹第一跃从时间步k处的真实状态$x_k$出发用一步跳跃公式直接预测时间步j处的状态得到$\hat{x}_{j|k}$第二跃从时间步j处的真实状态$x_j$出发再次用一步跳跃公式直接预测最终图像得到$\hat{x}_{0|j}$。这样整条训练用的跃迁轨迹就只有两步内存消耗固定在一个很小的数值完全不随原始生成步数增加而膨胀。但这里有一个微妙的设计细节研究团队称之为潜变量连接器。问题在于一步跳跃得到的$\hat{x}_{j|k}$只是对真实$x_j$的近似两者之间存在误差。如果直接拿近似值做第二跃的起点误差会累积。研究团队的解决方案是让第二跃从真实的$x_j$出发但同时保持梯度只沿着近似预测的路径流动。用技术语言说就是$x_j \hat{x}_{j|k} \text{stop\_gradient}(x_j - \hat{x}_{j|k})$其中stop_gradient操作让那个误差修正项在反向传播时隐形不参与梯度计算。同样的处理也用在最终图像上$x_0 \hat{x}_{0|j} \text{stop\_gradient}(x_0 - \hat{x}_{0|j})$。这个设计的精妙之处在于正向计算时我们用真实状态保证了数值的准确性反向传播时梯度只沿着那条简洁的两步捷径传递既避免了内存爆炸又让早期步骤能够收到来自最终图像质量的直接信号。由于k和j是从整个生成轨迹中随机选取的有时候捷径横跨早期的大跨度时间段有时候集中在晚期的精细调整阶段。这种随机性确保了模型在训练过程中早期步骤和晚期步骤都能得到充分的梯度更新就像轮换训练一支球队的不同球员而不是只盯着几个明星球员反复练习。四、梯度折扣留住有用信号去除危险噪声构建了跃迁轨迹之后研究团队还需要解决另一个数学问题梯度爆炸。当梯度沿着这条两步捷径传递时它包含三个组成部分。第一个是单步梯度k来自第一跃预测的贡献第二个是单步梯度j来自第二跃预测的贡献第三个是嵌套梯度这是跨越两步才会出现的交叉项它捕获了两个时间步之间的相互作用关系。嵌套梯度的存在是双刃剑。它包含了跨步骤的有用信息——毕竟早期步骤和晚期步骤并不是完全独立的知道它们如何相互影响对训练很有价值。然而嵌套梯度的数值可能非常大它的系数包含了两个时间差之积j×(k-j)一旦数值过大就会导致梯度爆炸让训练崩溃。以前的DRTune方法选择了一刀切的做法直接把嵌套梯度完全去掉从根本上消除爆炸风险。这就像为了防止一锅汤太辣直接把辣椒全扔了——安全是安全了但汤的风味也损失了。LeapAlign的做法更为精细。研究团队引入了一个叫做梯度折扣因子$\alpha$取值在0到1之间的参数通过修改第二跃的计算方式让嵌套梯度乘以$\alpha$这个折扣系数$\hat{x}_{0|j} x_j - j \cdot v_\theta(\alpha x_j (1-\alpha) \text{stop\_gradient}(x_j))$。在正向计算时这个表达式和原来一样因为$\alpha x_j (1-\alpha)x_j x_j$但在反向传播时嵌套梯度会被缩小到$\alpha$倍。当$\alpha 0$时嵌套梯度被完全移除相当于DRTune的策略当$\alpha 1$时嵌套梯度保持原始大小风险最高当$\alpha$取中间值实验中最优为0.3时嵌套梯度保留了大部分有用信息同时数值被压缩到安全范围。实验证明即使只用嵌套梯度来训练早期步骤移除单步梯度k适当折扣$\alpha0.3$下的性能也远超完全去除$\alpha0$或完全保留$\alpha1$的情况。五、让相似轨迹说更多话轨迹相似度加权训练过程中还存在另一个微妙问题。跃迁轨迹是对真实生成路径的近似近似程度有时好有时差。当一步跳跃的预测$\hat{x}_{j|k}$与真实值$x_j$差异很大时梯度信号的可靠性就大打折扣——这就好比在一张错误的地图上导航即使走得认真也可能越走越偏。为此LeapAlign引入了轨迹相似度加权机制让那些与真实轨迹更接近的跃迁轨迹在训练中获得更大的权重影响更大而那些误差较大的跃迁轨迹则相应降权。具体衡量方式是计算两个连接点处的预测误差$d_j \text{mean}|x_j - \hat{x}_{j|k}|$代表第一跃的误差$d_0 \text{mean}|x_0 - \hat{x}_{0|j}|$代表第二跃的误差。权重因子定义为$w_\text{sim} \frac{1}{\max(d_j, \tau) \max(d_0, \tau)}$其中$\tau 0.1$是一个最小值截断防止当两者误差都极小时权重无限大。最终的训练损失是加权损失$\mathcal{L} \text{stop\_gradient}(w_\text{sim}) \cdot \mathcal{L}_\text{raw}$权重本身不参与梯度计算只是一个调节系数。实验验证了这个设计的有效性只考虑$d_j$处误差或只考虑$d_0$处误差都能带来提升同时考虑两个连接点的误差效果最好。六、训练目标给满意的图像更高奖励避免作弊在确定如何传递梯度之后还需要确定训练的优化目标——模型应该朝着什么方向调整。LeapAlign采用了一个朴素而有效的铰链式损失函数$\mathcal{L}_\text{raw} \max(0, \lambda - r(x_0))$其中$r(x_0)$是奖励模型对生成图像的打分$\lambda$是一个阈值参数。这个损失函数的含义很直观只有当图像的奖励分数低于阈值$\lambda$时模型才会受到惩罚驱动它提升质量一旦超过阈值损失归零模型不再受到额外驱使。这种设计防止了所谓的奖励作弊——如果模型被要求无限制地提高奖励分它可能会学会一些投机取巧的技巧产生表面上分数很高但实际质量很差的图像就像有些学生专门研究考试技巧而不是真正学好知识。奖励评估使用的是完整生成的真实图像$x_0$而非跃迁预测的近似图像$\hat{x}_{0|j}$。这个选择看似微小实则重要近似图像可能包含各种伪影和模糊奖励模型对它的评估不够可靠而真实图像直接反映了完整生成流程的最终质量给出的评分更准确提供了更可靠的训练信号。七、实验结果全面超越竞争对手研究团队对Flux黑森林实验室开发的顶尖开源流匹配图像生成模型进行了大量实验涵盖两个核心任务通用偏好对齐和组合对齐即让生成图像精确匹配复杂文字描述中的物体数量、颜色、空间关系等。在通用偏好对齐任务中LeapAlign使用HPSv2.1作为奖励模型在HPDv2数据集的50,000条提示词上训练300次迭代然后在400条测试提示词每条生成4张共1600张图上评估。评估指标涵盖了多个独立的人类偏好评分系统HPSv2.1、HPSv3、PickScore、ImageReward以及UnifiedReward-Alignment图文一致性和UnifiedReward-IQ图像整体质量。与策略梯度方法相比LeapAlign的表现全面领先。DanceGRPO在HPSv2.1得分约0.345MixGRPO使用了三个奖励模型联合训练达到0.369而LeapAlign仅用单个奖励模型就达到了0.409提升幅度相当显著。与直接梯度方法相比ReFL约0.385DRaFT-LV约0.386DRTune约0.388LeapAlign同样以0.409居首。在HPSv3等域外评估指标上LeapAlign同样保持领先说明它不是单纯地拟合训练用的奖励模型而是真正提升了图像质量。在组合对齐任务中优势更为突出。GenEval基准测试包含六类任务单物体生成、双物体生成、计数、颜色、空间位置和属性绑定。原始Flux模型的整体得分为0.654。经过训练后MixGRPO达到0.723DRTune达到0.710而LeapAlign达到0.742在位置从19.5%提升到30.25%、属性绑定从45.25%提升到66%、颜色从74.47%提升到80.59%等难度较高的任务上提升最为明显。这些任务恰恰是需要模型在生成早期就建立正确的空间布局和语义结构的LeapAlign能够更新早期步骤的优势在此得到了充分体现。训练曲线的对比同样说明问题。在相同的迭代次数内LeapAlign的奖励分数上升速度明显快于DRTune最终达到的高度也更高说明它的训练效率更高。质性结果方面对于像一张有一匹马和一列火车的照片或一张长椅在熊左边的照片这样需要精确空间关系的提示ReFL和DRaFT-LV生成的图像布局与原始Flux模型差别不大因为它们只更新了晚期步骤而LeapAlign生成的图像则能显著调整全局构图让物体的数量、位置、颜色都准确对应文字描述。在不同奖励模型和不同数据集上的泛化实验使用PickScore在HPDv2上训练或用HPSv3在MJHQ-30k上训练也证实了LeapAlign的一致优越性。此外将LeapAlign应用于另一个流匹配模型Stable Diffusion 3.5 Medium同样取得了最优结果证明这套方法不是为Flux专门定制的而是具有通用性的。八、深入剖析每个设计选择的价值研究团队对LeapAlign的每个核心设计进行了独立的消融实验验证其必要性。关于梯度折扣因子$\alpha$的选择实验显示$\alpha0$完全去除嵌套梯度等同于DRTune策略得到HPSv2.1分数0.406$\alpha1$完全保留嵌套梯度无折扣得到0.405而$\alpha0.3$得到0.409是三者中最优的。这证明嵌套梯度有其价值保留比去除好但需要控制幅度折扣比完全保留好。值得注意的是即使在$\alpha0$的情况下退化为只有单步梯度类似DRTuneLeapAlign的0.406仍然高于DRTune的0.388说明性能提升不只来自嵌套梯度跃迁轨迹的设计本身也有独立贡献。关于跃迁步数的选择研究团队比较了使用一步、两步和三步跃迁轨迹的效果。一步版本得分0.403两步版本得分0.409三步版本得分0.408但内存消耗更高约是两步版本的1.05倍。两步版本在性能和内存消耗之间达到了最佳平衡点且一步版本虽然不如两步版本但仍然超越了DRTune0.388和ReFL0.385再次证明LeapAlign的其他设计真实图像奖励评估、轨迹相似度加权的独立贡献。关于奖励评估输入的选择直接使用真实的$x_0$得分0.409使用跃迁预测的$\hat{x}_{0|j}$加上$d_0$的相似度加权得0.407直接使用$\hat{x}_{0|j}$则跌至0.404。真实图像作为奖励输入效果最好印证了研究团队关于近似图像的奖励评估可靠性不足的判断。关于训练时间步范围的影响将k和j限制在后半段生成轨迹范围[0, 1/2]的GenEval分数为0.711而在整个轨迹范围[0, 1]1代表最早的纯噪声步内随机选取则达到0.742。这清楚地表明能够更新早期生成步骤对于组合对齐任务至关重要而LeapAlign的随机选择策略正好充分利用了这一点。关于k和j的选择策略随机选择0.409略优于固定k和j之间距离为1/2的策略0.408差距虽小但证明随机性有其合理性同时随机选择实现更简单因此作为最终设计。损失阈值$\lambda$的选择也经过了仔细验证。$\lambda0.35$时模型优化不足HPSv2.1为0.386$\lambda0.55$时表现最佳0.409$\lambda0.75$时域内分数相近0.409但域外ImageReward有所下降1.484 vs 1.510$\lambda0.95$时性能全面下滑0.402。最终选定$\lambda0.55$这个值在优化力度和泛化能力之间取得了最佳平衡。说到底LeapAlign的成功不是某一个单一设计的功劳而是跃迁轨迹构建、梯度折扣、真实图像奖励评估和轨迹相似度加权四个模块协同作用的结果。每个模块都有其独立价值叠加在一起产生了超过各部分之和的整体效果。归根结底这项研究解决的问题可以用一句话概括之前的AI图像训练方法就像只能给厨师调整最后摆盘动作的反馈而LeapAlign让反馈信号能够一路传回到食材选购阶段从根本上改变了烹饪的方向。这种能力在复杂场景生成多物体、精确颜色、空间关系上的价值尤为突出因为这类任务的关键恰恰在于那些早期决策。对于普通用户来说这意味着未来基于LeapAlign训练的图像生成应用在处理左边有一只棕色的猫右边有一辆蓝色的自行车背景是夕阳下的海滩这类复杂描述时会有更高的成功率而不是生成一张大概对味但细节错误的图片。当然LeapAlign目前还有其局限它需要可微分的奖励模型那些依靠人工评分或规则判断的非可微奖励还无法直接使用。研究团队也坦言将LeapAlign扩展到视频生成领域是下一步的工作方向因为视频的生成时间更长、每一帧的早期决策影响更大LeapAlign的设计思路在那里可能同样甚至更有价值。有兴趣深入了解技术细节的读者可以通过arXiv编号2604.15311获取完整论文其中包含了完整的数学推导、算法伪代码和更多实验结果。QAQ1LeapAlign和之前的DRTune、ReFL这些方法有什么本质区别ALeapAlign最大的区别在于能够有效更新图像生成的早期步骤。DRTune虽然也能更新早期步骤但它通过截断嵌套梯度来防止爆炸丢失了跨步骤的交互信息ReFL和DRaFT-LV则只能更新接近最终图像的晚期步骤。LeapAlign用两步跃迁轨迹直接连接任意两个时间点配合梯度折扣保留了嵌套梯度的部分价值同时加入轨迹相似度加权来筛选可靠的训练信号四个设计共同作用使得早期步骤的有效更新成为可能。Q2LeapAlign训练出来的Flux模型在生成复杂场景图片时提升有多大A以GenEval基准测试为例原始Flux模型整体得分约0.654。经过LeapAlign训练后达到0.742提升幅度明显。其中提升最显著的是空间位置从19.5%到30.25%和属性绑定从45.25%到66%这两类任务也就是说模型更能准确理解左边右边红色的方形的这类修饰关系而不是大致生成一堆物体就算完成任务。Q3LeapAlign只能用于特定的奖励模型吗ALeapAlign的要求是奖励模型必须是可微分的即能够计算梯度。研究团队已经用HPSv2.1基于CLIP的奖励、PickScore同样基于CLIP和HPSv3基于视觉语言模型的奖励分别验证了有效性三种风格不同的奖励模型都能配合LeapAlign取得最佳结果。目前无法直接支持的是人工打分、规则判断这类不可微分的奖励对此研究团队提出了未来通过可微分价值模型作为中间桥梁来扩展的方向。