UCSD、上海交通大学、南京大学联合提出 LEAFE 框架通过反思式回溯探索与经验蒸馏将环境反馈内化为模型的纠错能力在长程交互任务中 Pass128 提升最高达 14%显著超越 GRPO 等主流 RLVR 方法。当前 LLM Agent 的后训练主流路线是 RLVRReinforcement Learning with Verifiable Rewards—— 让模型在环境中采样多条轨迹拿最终的成功/失败信号做策略梯度更新。这条路在短程推理任务上表现不错但放到长程交互场景中就暴露出一个根本性的问题终端标量奖励提供的监督信号太稀疏了。大量「部分正确但最终失败」的轨迹被直接丢弃模型只学到了「复读已有的成功模式」而没有真正习得「出错后如何纠偏」的能力。这篇来自 UCSD 的 Hao Zhang 团队一作 Rui Ge联合上海交大、南京大学的工作正是瞄准了这个痛点。论文标题叫Internalizing Agency from Reflective Experience提出了一个名为LEAFELearning Feedback-Grounded Agency from Reflective Experience的两阶段框架。核心思想简洁而优雅与其只奖励成功的轨迹不如让模型主动反思失败找到出错的关键决策点回溯到那个节点用总结出的经验指导新的探索分支然后再把这种「经验引导下的纠偏能力」蒸馏回模型权重里。论文在 CodeContests、WebShop、ALFWorld、ScienceWorld、Sokoban 五个长程交互基准上做了广泛实验。结果很有说服力LEAFE 不仅提升了 Pass1更关键的是在大采样预算下Pass128展现出持续增长的优势最高提升达14%。相比之下GRPO 的 Passk 曲线很快趋于饱和 —— 这恰恰印证了论文的核心论点outcome-driven training 本质上是分布锐化distribution sharpening而 LEAFE 做的是能力边界的真正拓展agency internalization。从技术视角看这篇文章的贡献在于提出了一种结构化的「failure → reflection → rollback → correction」探索范式并配合一个反事实蒸馏counterfactual distillation机制完成经验内化。实验设计比较全面消融分析也比较扎实。作为一篇 2026 年 3 月的 preprint写作质量和实验覆盖度都值得一读。● ● ●IntroductionLLM Agent 的核心能力不是一次做对而是「出错后还能爬起来」—— 但当前的训练方法恰恰忽略了这一点。1.1 从「被动回答者」到「自主行动者」大语言模型正在经历一场身份转变从被动的文本生成器变成能够在复杂环境中规划、执行、纠错的自主智能体。在 Web 导航、代码生成与调试、长程任务规划这些交互式场景里Agent 的成功不再取决于单轮回答的质量而取决于一种更底层的能力 ——agentic behavior做出一系列决策观察每个决策的后果然后从错误中恢复。更重要的是这些环境会提供丰富的结构化反馈structured feedback。比如● 无效的动作指令● 状态转移信息● 编译器报错这些反馈远比简单的「成功/失败」信号有用 —— 它们往往直接告诉你为什么轨迹偏离了正轨以及该如何纠正。LLM Agent 的核心承诺不是 one-shot correctness而是robust decision-making under feedback检测轨迹何时正在失败并据此更新后续动作。1.2 RLVR 的困境分布锐化当前 Agent 后训练的主流范式是RLVRReinforcement Learning with Verifiable Rewards模型采样多条轨迹拿最终的成功/失败标量奖励做策略梯度优化。代表性算法包括 PPO、GRPO 等。但在长程交互场景下这种 outcome-driven 的方式有一个根本缺陷⚠终端标量奖励只在轨迹级别提供监督。在大量 rollout 中只有极少数最终成功梯度更新被少数已经「做对了」的轨迹主导大部分「部分正确的失败」轨迹几乎不贡献任何学习信号。结果就是RLVR 本质上在做distribution sharpening分布锐化● 它把概率质量集中到一小组已经存在于基础模型长尾区域的成功行为上●Pass1 提升了但Passkk 很大时提升有限甚至为负● 模型学会了更好地「复现」已有的成功模式而没有真正拓展解题能力的边界换句话说RLVR 偏向于利用exploit已有能力而非探索explore能力边界之外的行为。这导致了一个实际后果部署时必须依赖昂贵的 test-time computation多次重试、sampling-and-voting、显式树搜索来弥补模型自身纠错能力的不足。1.3 核心区分分布锐化 vs. 能力内化论文在这里提出了一个非常重要的概念区分Distribution Sharpening分布锐化vs.Agency Internalization能力内化前者是让模型更擅长复现已有的成功轨迹后者是训练模型习得一种与环境交互、解读结构化反馈、反思哪里出了错、并据此修正后续决策的内在能力agency。GRPO 这类方法可以 upweight 成功轨迹但它把丰富的交互反馈无效动作、报错信息、测试失败压缩成了一个 episode-level 的标量信号。这种方式提供的监督很弱 —— 它不告诉你轨迹在哪里出了问题也不告诉你应该怎么改。而真正的 robust agency 需要的是把纠错过程本身内化到模型里—— 识别导致失败的关键决策点以反馈为条件进行定向修正而不是依赖盲目重试或外部的树搜索。Figure 1 直观地展示了这一点在 CodeContests 上LEAFE红色曲线的 Passk 随采样预算持续攀升而 GRPO 的曲线在 base model 之上几乎没有明显提升。这说明 LEAFE 真正拓展了模型的能力边界而不仅仅是锐化了现有分布。Figure 1: Internalizing feedback-grounded agency improves model capability (i.e., PassK) in long-horizon interaction, while outcome-only training (e.g., GRPO) yields limited gains beyond the base model.1.4 LEAFE从反思经验中学习为了解决上述问题论文提出了LEAFELearning Feedback-GroundedAgency from ReflectiveExperience一个两阶段的框架Stage 1: Tree-Based Experience Generation with Rollback基于树的经验生成与回溯Agent 在探索过程中周期性地进行反思reflection将环境反馈总结为可执行的经验experience summary回溯到更早的决策点并在经验指导下探索替代分支。这样就生成了 failure → rollback → fix → success 形式的轨迹。Stage 2: Experience Distillation经验蒸馏通过experience-to-policy distillation将 Stage 1 中经验引导下的纠偏决策蒸馏回模型权重。关键在于训练时模型只看到原始历史不含经验提示但要求生成经验引导后的纠正动作。这样在推理时模型无需显式的反思步骤就能做出更好的纠偏决策。1.5 实验验证论文在五个长程交互基准上进行了全面评估●CodeContests竞赛级编程带执行反馈●WebShopWeb 导航购物●ALFWorld文本化家务任务●ScienceWorld科学实验模拟●Sokoban推箱子规划在固定交互预算下LEAFE 一致性地提升了 Pass1并在 Passk 上显著超越 GRPO 等 outcome-driven 方法和 EarlyExp 等 experience-based 方法Pass128 最高提升14%。核心结论Central Takeaway“By enabling backtrack during exploration and learning from the resulting reflective experience turns environment feedback into actionable supervision, shifting the burden of competence from heavy test-time sampling to internalized, experience-driven agency.”通过在探索中启用回溯、从反思经验中学习LEAFE 将环境反馈转化为可执行的监督信号把能力负担从昂贵的 test-time 采样转移到了内化的、经验驱动的 agency上。1.6 论文贡献论文总结了三个核心贡献结构化探索Structured exploration via feedback-to-experience提出反思式回溯机制将标量信号转化为 experience-guided branches回溯 纠正实现超越基础策略主导模式的定向探索。更丰富的监督信号Richer supervision than scalar rewards经验轨迹提供了 decision-level 的 reflect → revise 监督明确指出 rollout 在哪里出了错、如何修复而非简单地对每条轨迹打一个终端奖励。内化的纠错能力提升 PasskInternalized recovery improves Passk通过在 post-backtrack actions 上微调将反馈驱动的 agency 内化到模型权重中拓展行为覆盖面在长程交互中 Pass128 最高提升 14%。本章小结本章指出了当前 RLVR 范式在长程 Agent 训练中的根本局限 —— distribution sharpening模型只学会了复现已有成功却未习得从失败中恢复的能力。论文提出了 distribution sharpening 与 agency internalization 的核心区分并引出了 LEAFE 框架的两阶段设计Stage 1 通过反思式回溯生成经验引导的纠偏轨迹Stage 2 通过反事实蒸馏将这种纠偏能力内化到模型权重。实验覆盖五个长程交互基准核心指标是 Passk旨在衡量模型的真实能力边界而非单次命中率。Learning From Reflective Experience本章是全文的技术核心。LEAFE 框架分为两个阶段Stage 1 通过反思式回溯构建经验引导的探索树Stage 2 通过反事实蒸馏将经验内化到模型权重中。Figure 2 给出了 LEAFE 框架的全景。● Stage 1在探索过程中Agent 周期性地审视当前轨迹识别出次优的决策点图中红色标记的 生成可执行的经验摘要 然后回溯到该点并在经验指导下探索新分支。● Stage 2从成功轨迹中采样 rehearsal 数据保持基础能力同时从分支点提取 counterfactual 数据原始 prompt 经验改进后的动作来内化探索多样性。Figure 2: Illustration of the LEAFE framework. Stage 1: During experience collection, the assistant periodically reviews the current trajectory and identifies a suboptimal round (denoted as red-colored τ\tau). It then produces the actionable experience ee, which is concatenated with the restored history to facilitate subsequent attempts. Stage 2: During experience distillation, the model optimizes a joint loss using two datasets: randomly sampled rehearsal pairs to maintain capabilities, and counterfactual pairs (original prompts paired with experience-improved actions) to internalize diverse exploration. For simplicity, we depict one branching event from the rollback exploration tree.3.1 Tree-Based Experience Generation with Rollback基于树的经验生成与回溯3.1.1 Setup and Notation基本设定考虑一个带有最大时间步 的情节式交互环境 。对于给定的任务指令 一个 episode 由一系列环境状态 刻画。每个时间步 Agent 接收观察 并生成动作 。环境的状态转移由函数 定义即在状态 下执行动作 环境转移到 并返回观察 。当达到步数上限 或触发终止条件成功或不可逆失败时episode 结束。这里的关键点是环境状态 是可回溯的—— 可以通过重置环境并重放动作序列 来恢复任意历史点的状态。这为 rollback 机制提供了基础。3.1.2 Periodic Reflection周期性反思利用经验的一个根本挑战在于语言反馈本质上是定性的、非结构化的难以通过标准优化直接内化到模型权重中。LEAFE 的处理思路把经验当作一种contextual intervention上下文干预通过将其注入输入上下文来引导策略转变policy shift。而不是试图直接通过梯度优化来处理自由文本形式的反馈。受 rollback 机制的启发每隔 步或失败时Agent 会调用一个反思程序。给定交互历史和反思提示策略生成一个回溯目标和一个经验摘要其中● 指向轨迹偏离正确路径的那个时间步● 是一段自然语言的诊断 修复建议用于指导后续的重新尝试❓反思的触发时机是什么两种情况(1) 每隔固定的 个交互步周期性地发起反思(2) 当 episode 以失败结束时立即触发反思。具体的 值因任务而异ALFWorld 和 ScienceWorld 用 WebShop 和 Sokoban 用 CodeContests 用 因为最大 horizon 只有 4。3.1.3 Branching via Rollback通过回溯进行分支有了回溯目标 之后接下来的操作分三步第一步状态恢复重置环境并重放原始动作序列 恢复环境状态 和对应的交互历史 。第二步经验引导的动作生成在经验 的指导下策略生成一个修正后的动作注意这里的条件中同时包含了原始历史 、任务指令 、以及经验摘要 。第三步分支执行执行 使环境转移到新状态 有效地从原始的次优路径上分支出去。然后 Agent 从 继续 rollout直到下一次周期反思或 episode 终止。树的构建策略BFS 队列分支请求通过一个基于队列的**广度优先搜索BFS**策略管理。通过迭代地从队列中选取目标并生成新轨迹系统构建了一棵隐式的rollback tree。探索持续进行直到达到最大树深度或耗尽分配的尝试预算。❓为什么用 BFS 而不是 DFSBFS 保证了各个分支点的探索宽度更均衡不会过早地深入某一条分支而忽略其他可能性。这对于经验生成很重要 —— 我们需要多样化的纠偏经验而不是只深挖某一个方向。Figure 5: A example on Sokoban illustrating Stage 1 of LEAFE. Starting from a failed trajectory, the agent reflects on the interaction history, identifies an earlier suboptimal decision(step 3), and generates a compact experience summary for rollback-based revision. The environment is then reset to the selected step, the prior history is replayed(step 1-2), and a new branch is explored under the guidance of the reflected experience. Repeating this failure → reflection → rollback → correction process enables the agent to recover from early mistakes and eventually reach a successful solution.Figure 5 给出了一个 Sokoban 上的具体示例●Attempt 1Agent 从初始状态开始执行在 Step 3 做出了一个次优决策最终在 Step 15 失败●反思Agent 审视交互历史识别出 Step 3 是关键的次优决策点生成经验摘要●Attempt 2环境重置到 Step 3重放 Step 1-2在经验指导下生成新的 Step 3 动作但仍然失败●Attempt 3再次反思和回溯这次成功找到解法整个过程展示了 failure → reflection → rollback → correction 的循环每次循环都在利用之前的失败经验来指导新的探索。3.1.4 整体流程总结把 Stage 1 的整体流程串起来对每个任务从初始状态开始 rollout每隔 步或失败时触发反思生成将 加入 BFS 队列从队列取出目标回溯 分支形成新轨迹新轨迹中可能又触发新的反思产生更多分支直到达到最大树深度或尝试预算耗尽整个过程构建了一棵隐式的rollback tree其中每个节点对应一个反思-回溯事件边对应经验引导下的新轨迹。3.2 Experience Distillation经验蒸馏Stage 1 生成了经验引导下的改进轨迹但这些改进依赖于显式的经验提示 。Stage 2 的目标是把这些经验引导的改进内化到模型参数中让模型在推理时无需显式经验就能做出更好的决策。这里构建了两种类型的监督数据进行标准的 next-token likelihood 训练。(i) Behavior Rehearsal行为彩排为了缓解灾难性遗忘catastrophic forgetting并保持 Agent 的基本任务解决能力论文引入了一个rehearsal set从成功的 episode 中采样。受 reject sampling 的启发把成功的 rollout包括通过分支生成的视为高质量示范。对每条成功轨迹提取状态-动作对 优化 rehearsal 损失这个损失的本质是最大化导致最终成功的动作的似然性确保策略在适应新经验的同时保持稳定的基线性能。❓为什么需要 Behavior Rehearsal如果只用 counterfactual 数据做 SFT模型可能会「忘记」它本来就会的那些基本技能。Rehearsal 起到了一个「锡纸」的作用保证新学到的纠偏能力不会以牺牲基础能力为代价。论文实际上只随机采样了 20% 的成功 rollout 来组成 rehearsal set。(ii) Experience-to-Policy Distillation经验到策略的蒸馏这是 LEAFE 的核心监督信号。当经验 在第 轮注入后产生了改进的动作 时论文将其视为原始历史不含经验下的一个counterfactual target反事实目标。反事实蒸馏的核心思想在训练时模型只看到原始历史 不提供经验 但要求生成经验引导后才能做出的纠正动作 。这样就把「经验引导下的策略转变」内化到了模型权重中。具体来说对于 中的每个分支事件最大化纠正动作 在只给原始历史和指令条件下的似然性这个损失的精妙之处在于它把经验增强后的决策映射回了无经验的上下文。这样就有效地拓展了模型的策略空间—— 让 Agent 在遇到次优状态时能够在其内在策略下做出纠正动作从而提升 Passk而无需在推理时额外的反思步骤。❓为什么不直接在推理时保留经验提示两个原因(1) 推理时的经验需要额外的反思步骤和环境回溯增加了延迟和复杂度(2) 通过蒸馏经验被压缩进模型权重模型可以在单次 rollout 中就做出更好的决策从根本上减少了对 test-time 计算的依赖。这正是「内化」的精髓所在。训练目标Training Objective最终的训练目标联合优化反事实蒸馏和行为彩排其中 是控制 rehearsal 强度的超参数。这个多任务损失的设计逻辑很清晰● 负责注入新能力—— 将经验引导的纠偏策略内化到模型中● 负责保持旧能力—— 缓解灾难性遗忘维持基线任务性能经验蒸馏的效果通过将经验引导的替代行为注入到策略的内在动作分布中LEAFE 增强了探索多样性并显著提升了有限 test-time 采样下的 Passk。模型不再只会单一的成功模式而是拥有了更丰富的行为覆盖面。本章小结LEAFE 的技术核心分为两阶段。Stage 1 通过周期性反思生成回溯目标和经验摘要并通过 BFS 队列管理的回溯分支机制构建经验探索树将环境反馈转化为结构化的 failure → rollback → fix → success 轨迹。Stage 2 则通过双损失设计完成内化 将经验引导下的纠偏动作映射回无经验上下文反事实蒸馏 通过成功轨迹的重放缓解灾难性遗忘。最终模型在推理时无需显式反思就能在其内在策略分布中注入了更多样化的纠偏行为从而提升长程交互场景下的 Passk。Experiment本章是全文的实验验证部分。论文在五个长程交互基准上全面评估 LEAFE从主结果、能力缩放、有效性分析、消融实验多个角度展示 LEAFE 的优势。实验设置模型选择论文使用了两个主流开源模型系列●Qwen2.5系列7B / 14B / 32B / 72B●Llama3/3.1系列8B / 70B这些模型被选中是因为它们在 RLVR 和 agentic reasoning 研究中被广泛采用为标准化基准。它们强大的推理和指令跟随能力为展示 LEAFE 的效果提供了严格的基线。数据集五个基准任务覆盖了从 Web 导航到竞赛编程的广泛场景WebShop模拟在线购物需要在超过一百万个产品中通过多跳搜索和属性匹配导航ALFWorld文本化家庭任务测试模型的 grounded common-sense reasoningScienceWorld科学实验模拟环境需要操作物体、圴具并遵循程序约束Sokoban推箱子拼图需要精确的顺序操作和有效的错误纠正CodeContests竞赛级编程带执行反馈的测试用例验证基线方法论文与四个基线进行了对比●Base指令模型无任务特定微调●GRPO-RLVR基于可验证奖励的 outcome-supervised RL●EarlyExp无奖励的 Agent 学习将早期交互经验转化为监督●ACE无训练的、基于 prompt 的方法通过构建 evolving playbook 来改进 Agent指标●Pass1单次尝试通过率衡量 exploitation 能力●Pass128128 次采样下的 best-of-k 表现作为模型 exploration capacity 和能力边界的代理指标所有 Pass128 都是从训练后的策略的独立推理采样中计算的不使用 Stage 1 的 rollback 或经验引导分支。4.1 Main Results主结果四个交互式 Agent 基准Table 1 展示了在 WebShop、ALFWorld、ScienceWorld、Sokoban 上的全面结果。全景看下来几个核心观察LEAFE 的优势在大 k 时最为显著。虽然 GRPO 在部分设定下的 Pass1 可以匹敌甚至超越 LEAFE但随着 k 增大这些优势迅速见顶。相比之下LEAFE 不仅提升 Pass1更在更高采样预算下持续产生更大提升。具体来看各个基准WebShop● Qwen2.5-7BGRPO 在 Pass1 上更高67.45% vs 66.50%但 LEAFE 在 Pass128 上反超87.80% vs 85.40%● Llama3.1-8BLEAFE 在两个指标上都最优56.25% / 81.00%ALFWorld● LEAFE 在 Pass128 上全面领先Qwen2.5-7B 达 94.29%Llama3.1-8B 达 96.43%ScienceWorld● LEAFE 在 Pass128 上全面最优Qwen2.5-7B 达 62.00%Llama3.1-8B 达 59.33%● ACE 在 Pass1 上表现最好但 Pass128 被 LEAFE 超越Sokoban● LEAFE 优势最为明显Qwen2.5-7B Pass128 达 78.40%GRPO 仅 68.00%Llama3.1-8B Pass128 达 77.20%GRPO 仅 73.40%❓为什么 GRPO 在某些场景的 Pass1 更高但 Pass128 不如 LEAFE这恰恰印证了 distribution sharpening 的理论。GRPO 把概率质量集中到少数已知的成功轨迹上提升了单次采样命中的概率但行为覆盖面并未拓展。LEAFE 则通过经验蒸馏注入了更多样化的纠偏行为在大量采样时能覆盖更广的解空间。CodeContests 结果在更大规模的模型上对比更为鲜明●Qwen2.5-72BGRPO Pass1 领先20.45% vs 17.12%但 LEAFE Pass128 大幅超越47.88%vs 36.97%提升近11 个百分点●Llama3-70B类似模式LEAFE Pass128 达 33.94%GRPO 仅 27.88%CodeContests 上的 Pass128 提升最高达 14%相对于 base model充分说明在需要迭代纠错的领域内化 feedback-grounded agency 的价值尤为显著。这里值得注意的是EarlyExp 和 ACE 在 CodeContests 上未报告结果因为它们是为交互环境设计的不能直接应用于代码执行反馈场景。4.2 Capability Scaling: Passk Analysis能力缩放分析Figure 3: Scaling results on different benchmarks. We plot the Passkk success rate as a function of the number of samples kk. Our method (red) consistently achieves higher efficiency and performance ceilings across all tasks compared to the baselines.Figure 3 绘制了 Passk 随采样预算 增加时的缩放曲线分别在 CodeContestsk 上限 1024、ScienceWorldk 上限 512、ALFWorldk 上限 256上展示。两个核心发现更高的能力天花板Higher upper bound在所有三个基准上LEAFE 在大 k 区间一致地达到最佳表现表明模型的能力天花板得到了真正提升。在 CodeContests 上优势尤为突出即使在最大采样预算下差距仍然显著。更高的采样效率Better sample efficiencyLEAFE 能用更少的采样达到相同的准确率阈值并在中等预算之后以相同的 k 保持更高的成功率。换句话说它在某个点之后主导了整个 scaling curve。这说明 LEAFE 不仅提高了可达到的性能天花板还提升了将额外采样转化为更高成功率的效率。本章小结实验全面验证了 LEAFE 的有效性。主结果显示LEAFE 在五个基准上 Pass128 全面领先尤其在 CodeContests 上提升高达 14%。Passk 缩放分析确认 LEAFE 同时提升了能力天花板和采样效率。有效性分析证明了 Stage 1 的树搜索策略优于独立采样和线性精化Stage 2 中 是内化纠偏能力的关键。消融实验进一步显示LEAFE 随模型规模稳健缩放、在 OOD 场景下比 GRPO 更具鲁棒性且与辅助方法组合时不会牺牲探索容量。局限性主要在于对环境反馈质量和可回溯性的依赖。ConclusionLEAFE 将环境反馈转化为可执行的监督信号把能力负担从 test-time 采样转移到内化的、经验驱动的 agency 上。具体来说LEAFE 的两阶段设计解决了 RLVR 在长程交互场景下的两个根本局限Stage 1Tree-Based Experience Generation with Rollback解决了探索不足的问题● 通过周期性反思识别次优决策点● 将环境反馈总结为可执行的经验摘要● 通过环境回溯和经验引导的分支探索生成 failure → rollback → fix → success 形式的结构化轨迹● 使用 BFS 队列管理多分支探索保证探索的广度和多样性Stage 2Experience Distillation解决了能力内化的问题● 通过反事实蒸馏将经验引导下的纠偏动作映射回无经验上下文让模型在推理时无需显式反思即可做出更好决策● 通过行为彩排保持模型的基线能力避免灾难性遗忘实验在五个长程交互基准上全面验证了 LEAFE 的有效性Pass128 最高提升 14%Passk 曲线持续攀升而非饱和OOD 泛化优于 GRPO且随模型规模稳健缩放。从更宏观的视角看LEAFE 代表了一种从「outcome-driven training」到「process-driven learning」的范式转变。它不是在问「哪条轨迹成功了」而是在问「轨迹在哪里出了问题、为什么出了问题、以及如何修复」。这种更精细的学习信号正是让 Agent 从「会做题」进化到「会纠错」的关键。附录算法与实现细节Algorithm 1 给出了 LEAFE Stage 1Tree-Based Experience Generation with Rollback的完整流程javascriptAlgorithm 1: LEAFE Stage 1 — Tree-Based Experience Generation with RollbackInput: Task q, Environment E, Policy π_θ, Reflection prompt p_refl, Max depth D, Max attempts per depth A, Rollback interval KOutput: Trajectory set T {τ_1, τ_2, ...}1: Initialize BFS queue Q ← {(E_0, h_0, depth0)}2: Initialize trajectory set T ← ∅3: while Q is not empty do4: (E_start, h_start, d) ← Q.dequeue()5: if d D then continue6: for attempt 1 to A do7: E_t ← E_start, h_t ← h_start8: for t 1 to T_max do9: a_t ~ π_θ(· | h_t, q) // 生成动作10: E_{t1}, o_{t1} ← Step(E_t, a_t) // 环境执行11: h_t ← h_t ⊕ (a_t, o_{t1}) // 更新历史12: if t mod K 0 or episode_done then13: (τ, e) ~ π_θ(· | h_t, p_refl) // 反思生成回溯点和经验14: E_τ ← Restore(E_0, a_{1:τ-1}) // 恢复环境状态15: h_τ ← truncate(h_t, τ) // 截断历史16: Q.enqueue((E_τ, h_τ ⊕ e, d1)) // 加入 BFS 队列17: end if18: if episode_done then break19: end for20: T ← T ∪ {current trajectory}21: end for22: end while23: return T❓算法的核心逻辑外层是一个 BFS 循环第 3-22 行从队列中取出起始状态进行最多 次尝试。每次尝试中第 8-19 行Agent 正常执行动作每隔 步或 episode 结束时触发反思第 12-17 行。反思生成回溯目标 和经验 环境恢复到 新的 (状态, 历史经验, 深度1) 三元组入队。这样就构建了一棵隐式的探索树每个节点是一个反思-回溯事件。● ● ●写在最后这篇 LEAFE 论文给出了一个干净且有说服力的技术叙事当前 RLVR 范式在长程 Agent 训练中的根本瓶颈不是算法不够好而是监督信号太粗糙—— 终端标量奖励只能告诉你「成功了还是失败了」却不告诉你「在哪里出了问题」和「应该怎么修」。LEAFE 的解法思路很自然既然环境本身就提供了丰富的结构化反馈那就让模型去反思这些反馈找到出错的关键节点回溯到那个点在经验指导下探索新的分支然后通过蒸馏把这种纠偏能力固化到权重里。整个流程 —— reflection → rollback → branching → distillation —— 逻辑链条清晰每个模块都有明确的技术动机。从实验结果看LEAFE 的核心亮点不在于 Pass1 的提升这一点 GRPO 有时反而更好而在于Passk 的持续攀升。这直接回应了论文的核心论点RLVR 做的是 distribution sharpeningLEAFE 做的是 capability expansion。前者让模型更擅长复现已知的成功模式后者让模型真正拥有了更丰富的行为覆盖面。OOD 泛化实验更进一步印证了这一点 —— GRPO 学到的是数据集特定的捷径LEAFE 学到的是更基础的纠错能力。当然论文也有其局限。对环境可回溯性的假设在真实部署场景中不一定成立比如 API 调用通常不可逆对反馈质量的依赖意味着在反馈模糊或误导性的环境中效果可能打折。此外Stage 1 的树搜索需要额外的环境交互预算这在某些高成本环境如真实的 Web 交互中可能是一个限制因素。但总体而言这篇论文提出了一个值得关注的研究方向与其只让模型学「怎么做对」不如同时让它学「出错了怎么修」。这种从「结果导向」到「过程导向」的转变可能是 Agent 训练从「刷榜」走向「真正可靠」的关键一步。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】