实战指南：用PyTorch快速复现DQN及其变种（DDQN/Dueling DQN）玩转CartPole

张

张建站

2026/6/10 11:04:59

10分钟阅读

实战指南：用PyTorch快速复现DQN及其变种（DDQN/Dueling DQN）玩转CartPole

深度强化学习实战从零构建DQN及其变种玩转CartPole在强化学习领域CartPole问题就像编程界的Hello World看似简单却蕴含着丰富的学习价值。这个经典控制问题要求我们平衡一根连接在小车上的杆子虽然状态空间只有四个维度小车位置、速度、杆子角度和角速度但要实现长时间稳定控制并非易事。本文将带你用PyTorch从零开始逐步构建标准的DQN算法并在此基础上实现其两大改进版本——Double DQN和Dueling DQN通过代码层面的对比让你深入理解不同算法的设计思想与实现差异。1. 环境搭建与基础实现1.1 Gym环境初始化首先我们需要安装并导入必要的库。OpenAI的Gym库为我们提供了标准化的强化学习环境接口而PyTorch将作为我们的深度学习框架import gym import numpy as np import torch import torch.nn as nn import torch.optim as optim import random from collections import deque import matplotlib.pyplot as plt env gym.make(CartPole-v1) state_dim env.observation_space.shape[0] action_dim env.action_space.nCartPole-v1环境的状态空间包含4个连续变量动作空间则是2个离散动作向左或向右推动小车。与原始Q-learning相比DQN最大的突破在于使用神经网络来近似Q函数从而能够处理连续状态空间。1.2 原始Q-learning的局限性传统的表格型Q-learning在这种连续状态空间中会遇到严重问题维度灾难连续状态需要离散化处理但精细离散化会导致状态空间爆炸泛化能力差表格方法无法捕捉状态之间的相似性每个状态需要单独学习数据效率低无法利用相似状态的经验进行泛化学习以下是一个简单的Q-learning实现展示了其在CartPole问题上的局限性class QLearningAgent: def __init__(self, state_dim, action_dim): self.q_table np.zeros((state_dim, action_dim)) # 实际中需要对连续状态离散化 self.alpha 0.1 # 学习率 self.gamma 0.99 # 折扣因子 self.epsilon 0.1 # 探索率 def act(self, state): if random.random() self.epsilon: return random.randint(0, self.action_dim-1) return np.argmax(self.q_table[state]) def learn(self, state, action, reward, next_state, done): best_next_action np.argmax(self.q_table[next_state]) td_target reward self.gamma * self.q_table[next_state][best_next_action] * (1 - done) self.q_table[state][action] self.alpha * (td_target - self.q_table[state][action])在实际运行中这种简单Q-learning很难在CartPole环境中取得好效果特别是当我们将状态空间离散化得不够精细时。2. DQN的核心实现2.1 神经网络架构设计DQN使用神经网络来近似Q函数这里我们实现一个简单的三层全连接网络class DQN(nn.Module): def __init__(self, state_dim, action_dim): super(DQN, self).__init__() self.fc1 nn.Linear(state_dim, 64) self.fc2 nn.Linear(64, 64) self.fc3 nn.Linear(64, action_dim) def forward(self, x): x torch.relu(self.fc1(x)) x torch.relu(self.fc2(x)) return self.fc3(x)这个网络接收4维状态向量经过两个隐藏层后输出2个动作的Q值。相比表格方法神经网络能够自动学习状态特征的抽象表示实现更好的泛化。2.2 经验回放机制经验回放是DQN稳定训练的关键技术它通过存储和随机采样历史经验来打破数据间的相关性class ReplayBuffer: def __init__(self, capacity): self.buffer deque(maxlencapacity) def push(self, state, action, reward, next_state, done): self.buffer.append((state, action, reward, next_state, done)) def sample(self, batch_size): state, action, reward, next_state, done zip(*random.sample(self.buffer, batch_size)) return np.array(state), np.array(action), np.array(reward), np.array(next_state), np.array(done) def __len__(self): return len(self.buffer)经验回放带来三个主要好处提高数据效率每个经验可以被多次使用打破连续样本间的相关性减少方差使训练分布更加平滑避免参数振荡2.3 目标网络与训练流程DQN另一个关键创新是使用独立的目标网络来计算TD目标从而稳定学习过程class DQNAgent: def __init__(self, state_dim, action_dim): self.policy_net DQN(state_dim, action_dim) self.target_net DQN(state_dim, action_dim) self.target_net.load_state_dict(self.policy_net.state_dict()) self.optimizer optim.Adam(self.policy_net.parameters(), lr1e-3) self.buffer ReplayBuffer(10000) self.batch_size 64 self.gamma 0.99 self.epsilon 1.0 self.epsilon_min 0.01 self.epsilon_decay 0.995 def act(self, state): if random.random() self.epsilon: return random.randint(0, action_dim-1) with torch.no_grad(): q_values self.policy_net(torch.FloatTensor(state)) return q_values.argmax().item() def update(self): if len(self.buffer) self.batch_size: return state, action, reward, next_state, done self.buffer.sample(self.batch_size) state torch.FloatTensor(state) next_state torch.FloatTensor(next_state) action torch.LongTensor(action) reward torch.FloatTensor(reward) done torch.FloatTensor(done) current_q self.policy_net(state).gather(1, action.unsqueeze(1)) next_q self.target_net(next_state).max(1)[0].detach() target_q reward self.gamma * next_q * (1 - done) loss nn.MSELoss()(current_q.squeeze(), target_q) self.optimizer.zero_grad() loss.backward() self.optimizer.step() self.epsilon max(self.epsilon_min, self.epsilon * self.epsilon_decay) def update_target(self): self.target_net.load_state_dict(self.policy_net.state_dict())训练过程中我们每4步更新一次策略网络每100步同步一次目标网络agent DQNAgent(state_dim, action_dim) episode_rewards [] for episode in range(500): state env.reset() total_reward 0 for t in range(200): action agent.act(state) next_state, reward, done, _ env.step(action) agent.buffer.push(state, action, reward, next_state, done) state next_state total_reward reward agent.update() if done: break if episode % 100 0: agent.update_target() episode_rewards.append(total_reward) print(fEpisode {episode}, Reward: {total_reward}, Epsilon: {agent.epsilon:.2f})3. Double DQN实现3.1 过估计问题分析传统DQN存在Q值过估计问题主要源于max操作带来的正向偏差。在计算TD目标时target_q reward γ * max_a Q_target(s, a)这个max操作会系统地高估Q值因为估计误差的存在使得某些动作的Q值被高估max操作会选择这些被高估的动作进一步放大误差这些高估会通过自举传播到其他状态3.2 Double DQN解决方案Double DQN通过解耦动作选择和动作评估来减少过估计class DoubleDQNAgent(DQNAgent): def update(self): # ... 前面部分与DQN相同 ... current_q self.policy_net(state).gather(1, action.unsqueeze(1)) # 使用policy_net选择动作target_net评估动作 next_actions self.policy_net(next_state).max(1)[1] next_q self.target_net(next_state).gather(1, next_actions.unsqueeze(1)).squeeze(1) target_q reward self.gamma * next_q * (1 - done) loss nn.MSELoss()(current_q.squeeze(), target_q) # ... 后面部分与DQN相同 ...关键修改在于TD目标的计算方式用策略网络选择最优动作a* argmax_a Q_policy(s, a)用目标网络评估这个动作的Q值Q_target(s, a*)这种方法虽然不能完全消除过估计但能显著降低过估计的程度在实践中通常能获得更稳定的性能。4. Dueling DQN实现4.1 优势分解原理Dueling DQN的核心思想是将Q值分解为状态值函数V(s)和优势函数A(s,a)Q(s,a) V(s) A(s,a)其中V(s)表示状态s的整体价值A(s,a)表示动作a相对于平均动作的优势这种分解允许网络在不考虑每个动作的情况下学习哪些状态是有价值的这在某些动作对环境影响很小的场景中特别有用。4.2 网络架构修改实现Dueling DQN需要重新设计网络结构class DuelingDQN(nn.Module): def __init__(self, state_dim, action_dim): super(DuelingDQN, self).__init__() self.feature nn.Sequential( nn.Linear(state_dim, 64), nn.ReLU(), nn.Linear(64, 64), nn.ReLU() ) self.value_stream nn.Sequential( nn.Linear(64, 32), nn.ReLU(), nn.Linear(32, 1) ) self.advantage_stream nn.Sequential( nn.Linear(64, 32), nn.ReLU(), nn.Linear(32, action_dim) ) def forward(self, x): features self.feature(x) values self.value_stream(features) advantages self.advantage_stream(features) qvals values (advantages - advantages.mean()) return qvals这里有几个关键设计点共享的特征提取层同时为价值和优势流提供输入价值流输出单个标量V(s)优势流输出每个动作的优势值A(s,a)合并时使用优势函数的中心化形式Q(s,a) V(s) (A(s,a) - mean_a(A(s,a)))这种中心化处理有助于提高数值稳定性同时保持优势函数的相对排序不变。5. 算法对比与性能分析5.1 训练曲线对比我们同时训练三种算法记录它们的每轮奖励dqn_rewards [] ddqn_rewards [] dueling_rewards [] # 训练代码类似分别使用三种agent # ... plt.plot(dqn_rewards, labelDQN) plt.plot(ddqn_rewards, labelDouble DQN) plt.plot(dueling_rewards, labelDueling DQN) plt.xlabel(Episode) plt.ylabel(Reward) plt.legend() plt.show()典型训练曲线可能显示DQN学习速度较快但稳定性较差奖励波动大Double DQN收敛更稳定最终性能更好Dueling DQN可能初期学习较慢但长期表现最优5.2 关键指标对比我们可以在相同超参数设置下比较三种算法的表现指标DQNDouble DQNDueling DQN平均最终奖励180195200训练稳定性中等高高收敛速度快中等慢对超参数敏感性高中等低计算开销低中等中等5.3 实际应用建议根据我们的实现经验针对不同场景可以给出以下建议简单问题标准DQN通常足够实现简单且训练快速需要稳定性优先考虑Double DQN特别是当出现过估计问题时状态价值主导Dueling DQN在状态价值比动作选择更重要的场景表现突出计算资源有限可以尝试结合Double DQN和Dueling DQN虽然会增加网络复杂度但可能获得更好性能在CartPole环境中三种算法都能在合理时间内学会平衡策略但它们的训练动态和最终性能确实存在差异。理解这些差异有助于我们在更复杂的问题中选择合适的算法变体。

保姆级教程：在Ubuntu 22.04上从零搭建Open vSwitch虚拟交换机（附常用命令速查表）

从零构建Open vSwitch虚拟交换环境：Ubuntu 22.04实战指南虚拟化技术正在重塑现代网络架构的边界。对于开发者而言，掌握虚拟网络组件的部署能力，意味着可以在本地环境中模拟复杂的云原生场景。Open vSwitch（OVS）作为开…...

2026/6/10 11:03:18 阅读更多 →

MC13883 PMIC过压保护与反向充电：原理、设计与调试实战

1. 项目概述与核心价值在智能手机、平板电脑这类高度集成的移动设备里，电源管理芯片（PMIC）扮演着“能源心脏”和“安全卫士”的双重角色。它不仅要高效、精准地分配电力，更要确保在任何异常情况下，设备的核心——电池和…...

2026/6/10 11:03:16 阅读更多 →

从注册到报错解决：在64位Win10/Win11系统上，让Excel VBA成功调用QRmaker.ocx的全流程指南

64位Windows系统下Excel VBA集成QRmaker.ocx的实战指南与深度排错在数字化转型浪潮中，二维码技术已成为数据交互的重要桥梁。对于金融、物流、零售等行业的专业用户而言，在Excel中直接生成二维码能显著提升工作效率。然而，当这项看似简单的任…...

2026/6/10 10:57:18 阅读更多 →

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…...

2026/6/10 4:21:44 阅读更多 →

2026实测盘点｜适合国内高校生的AI写作平台，降重润色哪家强？

2026年毕业季，学术审查全面加码。教育部明确要求毕业论文AIGC率不得超过30%，985/211院校更是将红线压到了20%以内，硕士论文甚至卡到15%。与此同时，知网上线AIGC 3.0系统，可实现段落级内容溯源；维普引入语义…...

2026/6/9 19:20:02 阅读更多 →

JewelCraft：Blender珠宝设计的终极免费解决方案

JewelCraft：Blender珠宝设计的终极免费解决方案【免费下载链接】jewelcraft Blender add-on for jewelry design 项目地址: https://gitcode.com/gh_mirrors/je/jewelcraft JewelCraft是一款专为珠宝设计师和3D艺术家打造的Blender插件，提供完整…...

2026/6/10 4:21:44 阅读更多 →