2025_NIPS_Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonst

张

张建站

2026/6/3 23:21:04

10分钟阅读

2025_NIPS_Uncertainty-Based Smooth Policy Regularisation for Reinforcement Learning with Few Demonst

文章核心总结主要内容该研究针对稀疏奖励强化学习中演示数据利用率低的问题，提出SPReD（Smooth Policy Regularisation from Demonstrations）框架。通过集成评论家网络建模Q值分布，量化演示动作与智能体当前策略动作的不确定性，采用连续权重调节行为克隆损失，而非传统二进制决策，在8个机器人任务中实现显著性能提升，复杂任务成功率最高达传统方法的14倍，且对演示数据的质量和数量具有强鲁棒性。核心创新点不确定性感知的连续正则化：摒弃Q-filter的二进制模仿决策，基于集成Q值分布计算连续权重，平滑调节演示数据对策略更新的影响，降低梯度方差。两种互补加权方法：SPReD-P：概率加权法，估算演示动作优于当前策略的可能性（基于高斯分布建模Q值）。SPReD-E：指数加权法，根据优势的统计显著性缩放模仿强度（基于四分位距校准不确定性）。高效集成设计：集成评论家网络同时用于目标计算和不确定性估计，计算效率与标准RL方法相当，无需额外大量算力。翻译部分（Markdown格式）Abstract在稀疏奖励强化学习中，演示数据可加速学习，但如何判断何时模仿演示动作仍是一大挑战。本文提出演示

医药洁净室空调控制：用PLC玩转五种模式

05医药洁净室空调箱各种模式实现程序介绍西门子1500 PLC昆仑通泰触摸屏暖通空调程序医药洁净室空调箱各种控制模式: 停止模式生产模式值班模式消毒循环模式消毒排风模式医药洁净室空调箱控制还是蛮考验技巧的，各个执行器的开启或关闭，甚至开启关闭…...

2026/6/1 21:49:08 阅读更多 →

基于hadoop+spark+hive的校园二手交易系统的设计与实现

前言本系统主要用于校园二手物品的交易系统，主要解决了学生和老师在校的闲置物品的剩余价值。传统线下交易方式效率低下，信息不畅通，交易安全无保障，难以满足学生的二手交易需求，现从线上的网络交易系统着手&#xff0…...

2026/5/30 7:51:31 阅读更多 →

3大突破！SwinIR如何实现图像超分技术革新

3大突破！SwinIR如何实现图像超分技术革新【免费下载链接】SwinIR SwinIR: Image Restoration Using Swin Transformer (official repository) 项目地址: https://gitcode.com/gh_mirrors/sw/SwinIR SwinIR是一款基于Swin Transformer的图像修复工具&#xf…...

2026/6/1 0:01:26 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/3 15:04:26 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/2 11:40:26 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/2 4:48:10 阅读更多 →