1. 资料

2. PPO 算法思路

PPO 是基于 AC 的进一步优化。AC 的思路和实现见：https://pangruitao.com/post/5262

其核心优化思路是: 限制策略更新幅度

更新幅度定义为：

\(r_t(\theta) = \frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} = \exp\left(\log \pi_\theta(a|s) – \log \pi_{\theta_{\text{old}}}(a|s)\right)\)

更新时对幅度进行限制，使更新公式为

\(L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \cdot \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \cdot \hat{A}_t \right) \right]\)

先继续和 Q Learning 一样，针对 gym 的 CartPole-v1 场景（控制小车平衡杆）进行学习：

个人实现基本的 AC 的 Jupyter Notebook 代码和运行结果见：https://github.com/Raytto/my_ml_study/blob/main/pg_study/s12_ppo.ipynb

得到的训练分数情况如下

看起来相比 AC 并没有明显提升。

尝试扩大网络，并通过积累一个 batch 的经验再统一更新追求稳定性，实现 Jupyter Notebook: https://github.com/Raytto/my_ml_study/blob/main/pg_study/s13_ppo_256.ipynb

分数有所提升，但稳定性依旧有限。看来 PPO 也是需要精心设计和调整的，并不万能。