强化学习实战：用Python代码可视化不同策略下的状态访问分布（附Jupyter Notebook）

张

张建站

2026/6/2 15:27:29

10分钟阅读

强化学习实战：用Python代码可视化不同策略下的状态访问分布（附Jupyter Notebook）

强化学习实战用Python代码可视化不同策略下的状态访问分布在强化学习领域理解智能体如何探索环境是算法设计的核心。想象你正在训练一个游戏AI——为什么有些策略能让角色快速通关而另一些却让角色困在某个区域反复徘徊这种差异不仅体现在最终得分上更直观反映在智能体访问环境状态的概率分布中。本文将带你用Python代码将这些抽象概念转化为可视化的热力图和轨迹动画让理论跃然屏上。1. 环境搭建与基础概念可视化1.1 创建自定义Gymnasium环境我们先构建一个简单的网格世界环境这个5x5的迷宫包含普通格子移动后获得-1奖励陷阱格子移动后获得-10奖励终点格子移动后获得20奖励并终止回合import gymnasium as gym from gymnasium import spaces import numpy as np class GridWorldEnv(gym.Env): def __init__(self): self.size 5 self.action_space spaces.Discrete(4) # 上,下,左,右 self.observation_space spaces.Discrete(self.size**2) self.trap_positions [(1,1), (3,3)] self.goal_position (4,4) def _get_obs(self): return self.state[0] * self.size self.state[1] def reset(self): self.state (0, 0) # 固定起点 return self._get_obs() def step(self, action): x, y self.state if action 0: x max(0, x-1) # 上 elif action 1: x min(self.size-1, x1) # 下 elif action 2: y max(0, y-1) # 左 else: y min(self.size-1, y1) # 右 self.state (x, y) done (self.state self.goal_position) if self.state in self.trap_positions: reward -10 elif done: reward 20 else: reward -1 return self._get_obs(), reward, done, {}1.2 状态访问分布的理论实现状态访问分布的计算公式为 $$ v^\pi(s) (1-\gamma)\sum_{t0}^\infty \gamma^t P_t^\pi(s) $$我们可以通过蒙特卡洛方法近似计算def compute_visitation(env, policy, episodes1000, gamma0.99): visitation np.zeros(env.observation_space.n) for _ in range(episodes): state env.reset() done False t 0 while not done: visitation[state] (gamma**t) action policy(state) state, _, done, _ env.step(action) t 1 visitation (1-gamma) * visitation / episodes return visitation2. 对比三种典型策略的表现2.1 随机策略基准测试def random_policy(state): return np.random.choice(4) # 随机选择动作 random_visits compute_visitation(env, random_policy)2.2 规避陷阱的保守策略def cautious_policy(state): x, y state // 5, state % 5 if x 3 and y 2: # 避免进入(3,3)陷阱 return 0 # 向上 if x 1 and y 0: # 避免进入(1,1)陷阱 return 1 # 向下 return np.random.choice([1, 3]) # 优先向右下移动 cautious_visits compute_visitation(env, cautious_policy)2.3 激进的最短路径策略def aggressive_policy(state): x, y state // 5, state % 5 if x 4: return 1 # 优先向下 if y 4: return 3 # 然后向右 return 0 aggressive_visits compute_visitation(env, aggressive_policy)3. 可视化分析与对比3.1 热力图绘制import seaborn as sns import matplotlib.pyplot as plt def plot_visitation(visits, title): plt.figure(figsize(8,6)) grid visits.reshape(5,5) ax sns.heatmap(grid, annotTrue, fmt.2f, cmapYlOrRd) ax.set_title(title) plt.show() plot_visitation(random_visits, 随机策略状态访问分布) plot_visitation(cautious_visits, 保守策略状态访问分布) plot_visitation(aggressive_visits, 激进策略状态访问分布)3.2 三维柱状图对比from mpl_toolkits.mplot3d import Axes3D def plot_3d_comparison(): fig plt.figure(figsize(12,8)) ax fig.add_subplot(111, projection3d) xpos np.arange(25) ypos np.zeros(25) zpos np.zeros(25) dx dy 0.5 * np.ones(25) dz_random random_visits * 100 # 放大可视化效果 dz_cautious cautious_visits * 100 dz_aggressive aggressive_visits * 100 ax.bar3d(xpos, ypos-0.3, zpos, dx, dy, dz_random, colorr, alpha0.5, label随机) ax.bar3d(xpos, ypos, zpos, dx, dy, dz_cautious, colorg, alpha0.5, label保守) ax.bar3d(xpos, ypos0.3, zpos, dx, dy, dz_aggressive, colorb, alpha0.5, label激进) ax.set_xticks(xpos) ax.set_xlabel(状态编号) ax.set_ylabel(策略类型) ax.set_zlabel(访问频率(%)) ax.legend() plt.show() plot_3d_comparison()4. 高级应用与优化技巧4.1 动态折扣因子实验折扣因子γ的选择显著影响访问分布gammas [0.5, 0.9, 0.99, 0.999] plt.figure(figsize(12,3)) for i, gamma in enumerate(gammas): visits compute_visitation(env, random_policy, gammagamma) plt.subplot(1, len(gammas), i1) sns.heatmap(visits.reshape(5,5), cbarFalse) plt.title(fγ{gamma}) plt.tight_layout() plt.show()4.2 占用度量的实际应用占用度量ρ(s,a)与状态访问分布的关系def compute_occupancy(env, policy, episodes1000, gamma0.99): occupancy np.zeros((env.observation_space.n, env.action_space.n)) for _ in range(episodes): state env.reset() done False t 0 while not done: action policy(state) occupancy[state, action] (gamma**t) state, _, done, _ env.step(action) t 1 occupancy (1-gamma) * occupancy / episodes return occupancy occupancy compute_occupancy(env, cautious_policy)4.3 从占用度量恢复策略根据定理2我们可以逆向工程def recover_policy(occupancy): policy np.zeros_like(occupancy) for s in range(occupancy.shape[0]): total np.sum(occupancy[s]) if total 0: policy[s] occupancy[s] / total else: policy[s] 1 / occupancy.shape[1] # 均匀分布 return policy recovered_policy recover_policy(occupancy)5. 实战建议与性能优化当处理更大状态空间时直接计算可能遇到内存问题。这时可以采用稀疏矩阵存储使用scipy.sparse矩阵存储访问计数并行化采样利用multiprocessing并行运行多个episode增量式计算对于非稳态策略采用指数移动平均更新访问分布from multiprocessing import Pool def parallel_visitation(args): env, policy, gamma, episodes args local_visits np.zeros(env.observation_space.n) for _ in range(episodes): state env.reset() done False t 0 while not done: local_visits[state] (gamma**t) action policy(state) state, _, done, _ env.step(action) t 1 return local_visits def fast_compute_visitation(env, policy, total_episodes10000, gamma0.99, workers4): episodes_per_worker total_episodes // workers with Pool(workers) as p: results p.map(parallel_visitation, [(env, policy, gamma, episodes_per_worker)]*workers) return (1-gamma) * np.sum(results, axis0) / total_episodes

【独家首发】财政部2024Q2AI财务审计新规解读：5类数据流向必须实时上报，否则影响年度评级

更多请点击： https://codechina.net 第一章：AI工具与财务系统整合的合规性底层逻辑 AI工具嵌入财务系统并非单纯的技术对接，其核心约束源于数据主权、审计可追溯性与监管责任三重合规刚性。财务数据受《会计法》《网络安全法》《个人信息保护…...

2026/6/2 15:27:15 阅读更多 →

STM32CubeIDE工程‘克隆’后编译报错？手把手教你清理残留文件与.ioc文件重命名避坑指南

STM32CubeIDE工程克隆后编译报错？深度解析文件残留与.ioc重命名难题当你满怀期待地复制了一个STM32CubeIDE工程准备二次开发时，编译器的红色错误提示却像一盆冷水浇下来。这不是简单的路径问题，而是隐藏在工程文件背后的复杂依赖关系在作祟。…...

2026/6/2 15:26:45 阅读更多 →

别再只盯着CLIP了！重温ViLBERT：多模态预训练中那些被低估的‘古老’智慧与设计抉择

重探ViLBERT：多模态预训练中被遗忘的设计哲学与当代启示当CLIP、BLIP等单流多模态模型成为行业焦点时，我们是否忽略了早期双流架构中蕴含的独特智慧？2019年问世的ViLBERT如同一位被低估的先知，其设计理念在当前技术浪潮中依然闪烁…...

2026/6/2 15:17:59 阅读更多 →

量子误差缓解技术：原理、应用与优化

1. 量子误差缓解技术概述量子计算在NISQ（含噪中等规模量子）时代面临的核心挑战之一是量子噪声对计算结果的干扰。误差缓解技术作为当前最实用的解决方案，能够在硬件层面纠错技术成熟前，显著提升量子算法的执行精度。与传统纠错不同…...

2026/6/2 9:54:07 阅读更多 →

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能

从新手到专家：Ryzen SDT调试工具完整指南，轻松解锁AMD处理器隐藏性能【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Tabl…...

2026/6/2 11:40:26 阅读更多 →

如何用Poppins字体解决多语言设计难题：新手完整指南

如何用Poppins字体解决多语言设计难题：新手完整指南【免费下载链接】Poppins Poppins, a Devanagari Latin family for Google Fonts. 项目地址: https://gitcode.com/gh_mirrors/po/Poppins 你是否曾为多语言项目中的字体选择而烦恼？当你的网站…...

2026/6/2 4:48:10 阅读更多 →