百度：经验引导强化学习压缩思维链

张

张建站

2026/5/26 16:17:50

10分钟阅读

标题ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression来源arXiv, 2605.07501v1️文章简介研究问题如何解决现有强化学习方法在压缩思维链时因忽略模型能力动态变化和题目难度差异而导致无法兼顾准确率与推理长度的问题主要贡献论文提出了 ExpThink 框架通过经验引导的奖励塑造和难度自适应优势估计实现了在不降低准确率的前提下大幅压缩推理长度。重点思路构建全局经验缓冲区记录每个问题在训练过程中出现过的最短正确解答长度作为动态收紧的压缩目标基准。设计三层奖励机制对短且正确的回答给予满分对长但正确的回答给予折扣分对错误回答给零分利用历史最优解自动演化课程难度。提出基于正确数量的优势归一化方法替代传统的标准差归一化使梯度大小随题目难度单调变化在难题上优先保证准确率在简单题上优先鼓励简洁。将上述机制整合进 DAPO 优化目标中形成“准确率优先、压缩次之”的训练动态无需人工调度即可实现自进化训练。分析总结实验表明该方法在多个数学推理基准上能将平均回复长度减少高达 77%同时显著提升准确率打破了以往压缩必损精度的权衡困境。模型规模越大收益越明显大模型能更早发现简短解法从而更快收紧经验阈值单位 token 的智能密度IPT最高提升至基线的 3 倍。消融实验证明若移除对冗长正确回答的折扣奖励会导致模型坍塌为短而错的输出若使用标准优势归一化则无法区分难易题导致压缩效果大幅下降。该方法能有效抑制“过度思考”关键词的使用减少不必要的自我纠正步骤并且这种高效推理能力能泛化到代码生成和科学问答等域外任务。个人观点论文打破了传统强化学习训练轮次独立的假设复用历史轨迹中的最短正确解作为动态奖励阈值让模型“自己教自己”更简洁的自进化课程机制。

Windows系统部署终极方案：5分钟掌握自动化安装与硬件兼容性技巧

Windows系统部署终极方案：5分钟掌握自动化安装与硬件兼容性技巧【免费下载链接】MediaCreationTool.bat Universal MCT wrapper script for all Windows 10/11 versions from 1507 to 21H2! 项目地址: https://gitcode.com/gh_mirrors/me/MediaCreationTool.bat …...

2026/5/26 16:15:13 阅读更多 →

硬件木马检测中边界网络标签污染的对抗攻击与防御

1. 项目概述：当硬件木马检测遇上“毒标签”在集成电路（IC）设计的漫长流水线中，硬件木马（Hardware Trojan, HT）检测一直是悬在安全工程师头顶的达摩克利斯之剑。随着第三方IP核和外包设计成为行业常态&#…...

2026/5/26 16:13:28 阅读更多 →

NG2026海洋溶解有机质中人为化合物的广泛存在

一、论文整体总结（一句话核心） 该研究基于21套公开非靶向LC‑HR‑MS/MS数据集、2,315份海水样品，首次在三大洋、从河口到开阔大洋尺度系统证明：人为有机污染物（外源性物质xenobiotics）广泛分布于全球海洋溶…...

2026/5/26 16:13:19 阅读更多 →

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）

Oracle EBS R12 主 / 辅助分类帐（主 / 辅助帐套）落地全套文档包含：配置清单、科目映射规则模板、4 类典型调整分录、税会 / IFRS 案例分录，可直接用于实施、方案文档、上线配置。说明：R11 帐套 (SOB)、R12 分类帐 (Led…...

2026/5/26 9:09:40 阅读更多 →

Harness的配置漂移检测与自动修复

云原生时代的稳定性利器：Harness配置漂移检测与自动修复全指南引言痛点引入相信每一位DevOps工程师、SRE或者运维负责人都遇到过这样的噩梦： 测试环境验证了3天的功能，上线到生产10分钟就出现503错误，排查了2小时才发现&…...

2026/5/26 9:11:16 阅读更多 →

【工程实践】代码质量与测试策略：构建可靠的软件交付体系

【工程实践】代码质量与测试策略：构建可靠的软件交付体系引言代码质量是软件项目成功的关键因素之一。良好的代码质量不仅能提高开发效率，还能降低维护成本，提升系统的可靠性。本文将详细介绍代码质量保障和测试策略的最佳实践。一、代码质…...

2026/5/26 7:22:22 阅读更多 →

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台

3分钟快速上手OBS多平台同步直播插件：告别重复配置，一键推流到多个平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为在不同直播平台同步推流而烦…...

2026/5/25 17:59:32 阅读更多 →