Trust Region Policy Optimization, Schulman, 2015本质上是on-policy算法(每次更新都需用最新策略重新采样),但在一次更新内部,它借助行为策略π 的数据来评估目标策略,并利用约束确保两者差距不大,从而近似地实现策略改进。通过对理论过程进行若干近似,类似natural policy gradient适合优化大型非线性策略,例如神经网络策略优化方法