06-04 · LLM 最新论文速览
今日候选池89篇硬过滤 LLM 打分后通过评估13篇精选 Top-10另列 3 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. SAID: Accelerating Diffusion-Based Language Models via Scaffold-Aware Iterative Decoding评分8.7·方向cs.CL · Computation and Language ·arxiv2606.04974· PDF SAID 框架先对骨架 token 集中去噪建立语义结构再用少步完成细节 token在 LLaDA-8B 上实现最高 9.1× 加速扩散语言模型推理加速非自回归生成开源摘要扩散大语言模型DLLMs通过双向上下文迭代去噪实现非自回归生成但推理代价高昂。本文提出 SAIDScaffold-Aware Iterative Decoding框架核心思想是将去噪计算在 token 间重新分配先用较多步骤生成骨架 token以建立粗粒度语义结构再用较少步骤补全可预测的细节 token。进一步将 SAID 适配至 block-wise 扩散解码并提出置信度分层生成策略CHLG仅对低置信度 token 分配额外步骤。在 LLaDA-8B 和 LLaDA 1.5 上的数学、代码及知识基准实验表明SAID 最高可实现 9.1 倍加速同时保持有竞争力的生成质量。评分细项rel 9.5 / nov 7.5 / prac 8.5 / author 72. Streaming Communication in Multi-Agent Reasoning评分8.5·方向cs.MA · Multiagent Systems ·arxiv2606.05158· PDF StreamMA 将多 agent 推理从生成-传输改为流式管线利用早期推理步更可靠的特性同时降低延迟并提升准确率avg 7.3pp。多agent推理流式通信推理加速延迟优化摘要多智能体推理系统通常采用生成后传递范式导致端到端延迟随流水线深度线性增长。本文提出 StreamMA一种流式多智能体推理系统将每个推理步骤在生成后立即流式传输给下游智能体通过流水线化相邻智能体来降低延迟。出乎意料的是这种流水线机制还能提升效果由于多步推理质量不均匀且早期步骤比后期更可靠利用可靠的早期步骤而非完整推理链可避免后期易错步骤误导下游智能体。作者首次对流式、串行和单体协议进行了联合闭式分析推导出效果排序、加速上界和成本比。在八个推理基准数学、科学、代码、两个前沿 LLMClaude Opus 4.6、GPT-5.4及三种拓扑结构上StreamMA 均优于基线平均 7.3pp最高 22.4pp。此外作者发现步级缩放定律增加单智能体推理步数可同时提升效果和效率构成与智能体数量缩放正交且可组合的新维度。评分细项rel 9 / nov 8 / prac 8 / author 73. AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning评分8.4·方向cs.MA · Multiagent Systems ·arxiv2606.04484· PDF AgentJet 将多 agent RL 训练解耦为 swarm server/client支持异构多模型联合训练通过 timeline merging 压缩冗余上下文获得 1.5-10× 加速。multi-agent RL分布式训练框架多模型强化学习摘要AgentJet 是一个面向大语言模型LLM智能体强化学习的分布式群体训练框架。与集中式框架将智能体rollout与模型优化紧耦合不同AgentJet 采用解耦的多节点架构服务端节点在GPU集群上托管可训练模型并执行优化客户端节点则在任意设备上运行任意智能体。该设计支持四项关键能力异构多模型强化学习、多任务混合训练、容错执行以及训练期间的实时代码热替换。为提升多模型、多轮、多智能体场景下的RL效率AgentJet引入带时间线合并的上下文追踪模块消除冗余上下文实现1.5–10倍训练加速。此外框架还提供自动化研究系统可接收研究主题并在大规模集群上自主开展长周期RL实验复现研究者的探索性工作流。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 7.04. SemBlock: Semantic Boundary Dynamic Blocks for Diffusion LLMs评分8.4·方向cs.CL · Computation and Language ·arxiv2606.04964· PDF SemBlock 用轻量语义边界预测器动态划分扩散 LLM 解码块替代固定块大小在 LLaDA 上超越 AdaBlock扩散语言模型动态解码语义分块开源摘要扩散语言模型DLM通过迭代去噪生成文本分块解码blockwise decoding可提升其实用性但现有方法依赖固定块大小或分隔符信号难以对齐语义边界。本文提出 SemBlock一种基于语义边界的动态分块解码框架。SemBlock 将动态分块构造建模为语义边界预测任务在冻结的 LLaDA 隐藏状态上训练轻量级预测器。为提供监督信号作者构建了 SemBound 数据集从篇章单元、推理步骤和代码实现片段中提取边界标签覆盖自然语言、数学和代码任务。推理时根据预测的边界概率选取每个动态块的结束位置。在 GSM8K、IFEval、MATH 和 HumanEval 上的实验表明SemBlock 一致优于固定分块和 AdaBlock 方法。评分细项rel 9 / nov 7 / prac 8 / author 75. Scaling Self-Evolving Agents via Parametric Memory评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2606.04536· PDF 提出 TMEMagent 在单 episode 内通过在线 LoRA 快权重更新将经验蒸馏为参数记忆用 RL 联合优化提取策略与任务策略。多agent参数记忆LoRA在线适配强化学习摘要现有记忆增强型 LLM 智能体仅在提示空间中以文本摘要或检索段落存储经验模型参数始终冻结导致策略无法随经验改进且上下文丢弃的信息不可恢复。本文提出 TMEM——一种自进化参数化记忆框架智能体在单次推理过程中不仅将历史压缩为显式记忆还通过轻量在线更新将蒸馏监督信号吸收到快速 LoRA 权重 Δ_t 中真正改变后续行为。作者将其形式化为带快权重滚动动态的智能体决策过程并用 RL 直接优化提取策略同时提出基于 SVD 的 LoRA 子空间初始化以加速在线收敛。在 LoCoMo、LongMemEval-S、多目标搜索及 CL-Bench 上TMEM 在不同模型规模下均优于摘要和检索基线。评分细项rel 9 / nov 8 / prac 7 / author 76. GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards评分8.0·方向cs.CL · Computation and Language ·arxiv2606.04889· PDF GRAIL 用梯度-激活显著性为 GRPO 中每个 token 重新加权 advantage无需 PRM 即提升数学推理准确率约 3.6%RLVRtoken级信用分配后训练摘要基于可验证奖励的强化学习如 GRPO已广泛用于提升 LLM 数学推理能力但现有方法通常将序列级 advantage 均匀广播到所有 token或依赖昂贵的过程奖励模型 (PRM) 进行步级监督。均匀分配假设所有 token 对最终奖励贡献相同稀释了梯度信号。本文提出 GRAIL一种基于梯度-激活显著性的内在 token 级 advantage 重加权方法对最终答案局部敏感度更高的 token 赋予更大权重。在 Qwen3、R1-distilled 和 OctoThinker 系列共五个模型上的评估表明GRAIL 一致优于 GRPO准确率平均提升 3.60%Pass3 提升 3.05%无需过程级监督即可实现细粒度推理对齐。评分细项rel 9 / nov 7 / prac 7.5 / author 57. Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair评分7.5·方向cs.CL · Computation and Language ·arxiv2606.05030· PDF 将 CoT 推理链错误段重构为 FIM 任务通过 PSM 序列重排SFT 训练实现目标条件式桥接修复。CoT修复SFTfill-in-the-middle推理摘要自回归链式思维CoT推理本质上是单向的每步仅依赖前文token导致早期的逻辑或算术错误会滚雪球式地污染整条推理链。本文提出 Teleological Reasoning InfillingTRI训练框架为decoder-only Transformer赋予目标条件化的桥接修复能力。核心思路是将错误推理段重新建模为 fill-in-the-middleFIM任务给定已验证的前缀前提 P、已验证的下游里程碑 S 和原始问题 Q模型需生成严格连接 P 与 S 的逻辑桥 M。方法采用 Prefix-Suffix-MiddlePSM序列重排与哨兵token无需修改自注意力结构即可实现对 P 和 S 的双向关注。训练分两阶段(i) 在形式化数学语料的符号验证三元组上做监督微调(ii) 以 Lean 4/Python 符号验证器作为唯一奖励信号进行 DPO消除 LLM 评判的迎合偏差。推理时 TRI 作为手术式修复模块嵌入双通道流程实现对推理链的精准局部修正。评分细项rel 8 / nov 7 / prac 7 / author 58. Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning评分7.1·方向q-fin.TR · Trading and Market Microstructure ·arxiv2606.04574· PDF 用 PPOLSTM 作为执行层叠加在分层配对筛选之上在币安小时级加密期货配对交易中显著优于启发式基线。量化交易深度强化学习配对交易加密货币摘要本研究探讨深度强化学习DRL作为执行层能否提升高波动加密货币市场中的配对交易表现。经典配对交易策略在传统股票中有效但面对高方差环境时常因刚性规则而遭受严重价差发散风险。为此作者提出分层筛选-排序配对选择方法与固定风险、自适应均值执行模型并使用带 LSTM 层的 PPO 智能体在确定性风控边界内做出执行决策。在 Binance USD-M 期货市场1小时级别数据上的样本外测试中优化后的 RL 策略显著优于启发式基线平稳循环分块 bootstrap 稳健性检验表明其风险调整后的超额收益在10%显著性水平下具有统计意义。该工作为量化金融文献贡献了一种将统计套利与自适应强化学习执行相结合的混合架构。评分细项rel 8 / nov 6 / prac 7 / author 49. Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data评分6.7·方向cs.CL · Computation and Language ·arxiv2606.05122· PDF 发现 base LLM 已潜在具备预测外部 judge 打分的能力用 160 条样本做校准 RL masked distillation 即可激发跨 judge 泛化的自评估。self-evaluationRL校准LLM-as-Judge摘要当模型充当评判者 (LLM-as-judge) 时一个自然的问题是模型能否预测外部评判者对自身输出的评分本文发现这种能力在针对性训练之前就已大量存在——仅通过少样本提示基座模型即可在三个基准上显著高于随机地预测外部评判者的多属性质量分数。作者提出 Self-Evaluation Elicitation (SEE) 方法通过短周期的校准耦合强化学习阶段同时改善回答并预测评判和掩码蒸馏阶段锐化预测而不影响回答质量来激发这一潜在能力。SEE 仅需 160 条样本约为 RL 基线的 1/31即可在三个基准上提升校准性能并保持回答质量。实验表明被激发的自评估能力高度局部化于模型自身 token 分布中且可迁移至未训练过的评判者说明模型习得的是可迁移的质量概念而非对特定评判者偏好的拟合。评分细项rel 7.0 / nov 7.0 / prac 6.5 / author 5.010. MIRAGE: Mobile Agents with Implicit Reasoning and Generative World Models评分7.0·方向cs.AI · Artificial Intelligence ·arxiv2606.04627· PDF MIRAGE 将显式 CoT 蒸馏为连续隐式推理向量并用生成式 world-model 对齐未来截图4B 模型在 AndroidWorld 匹配 CoT-SFT 性能且减少 token 输出。agentic workflow隐式推理推理加速SFT摘要移动端智能体需要从截图和语言目标出发操控日常应用这要求对界面可供性、多步导航和未来状态变化进行推理。然而许多智能体将推理外化为冗长的文本思维链导致交互变慢、监督成本升高且部署困难。本文提出 MIRAGE 框架将显式文本推理痕迹蒸馏为连续隐空间表示使智能体在无需解码长推理文本的情况下完成内部推理。同时引入生成式世界模型目标将隐推理向量与未来截图对齐促使智能体在行动前预测下一步界面状态。推理时 MIRAGE 在连续隐空间中完成推理大幅减少 token 生成量。在 AndroidWorld 上MIRAGE 以 3-5 倍更低的解码 token 预算匹配显式思维链微调性能并较指令微调基线提升 10.2 分在 AndroidControl 上动作定位精度提升且 token 生成量减少超过 75%。评分细项rel 7 / nov 7 / prac 7 / author 6 速览 · 其他通过评估的工作3 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.MA6.4Organizational Control Layer: Governance Infrastructure at the Execution Boundary of LLM Agent Systems· 提出 OCL 模型无关治理层在 LLM agent 生成动作与执行之间插入策略拦截与升级机制将不安全执行从 88% 降至近零。cs.AI6.7SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification· 构建 SCIPRM70K Chain-of-Tool 数据集并训练 Sci-PRM 过程奖励模型在 Best-of-N 与 RL 中为科学推理提供逐步工具调用验证信号缓解 advantage 消失。cs.AI6.6AIP: A Graph Representation for Learning and Governing Agent Skills· 将 agent 技能建模为有向执行图AIP节点为脚本/描述、边为类型化 IOClaude Sonnet 任务通过率从 53% 升至 67%。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考