文章核心总结主要内容该研究针对稀疏奖励强化学习中演示数据利用率低的问题,提出SPReD(Smooth Policy Regularisation from Demonstrations)框架。通过集成评论家网络建模Q值分布,量化演示动作与智能体当前策略动作的不确定性,采用连续权重调节行为克隆损失,而非传统二进制决策,在8个机器人任务中实现显著性能提升,复杂任务成功率最高达传统方法的14倍,且对演示数据的质量和数量具有强鲁棒性。核心创新点不确定性感知的连续正则化:摒弃Q-filter的二进制模仿决策,基于集成Q值分布计算连续权重,平滑调节演示数据对策略更新的影响,降低梯度方差。两种互补加权方法:SPReD-P:概率加权法,估算演示动作优于当前策略的可能性(基于高斯分布建模Q值)。SPReD-E:指数加权法,根据优势的统计显著性缩放模仿强度(基于四分位距校准不确定性)。高效集成设计:集成评论家网络同时用于目标计算和不确定性估计,计算效率与标准RL方法相当,无需额外大量算力。翻译部分(Markdown格式)Abstract在稀疏奖励强化学习中,演示数据可加速学习,但如何判断何时模仿演示动作仍是一大挑战。本文提出演示