基于策略的强化学习
参考资料:Proximal Policy Optimization (PPO) 算法理解:从策略梯度开始
如果LaTeX挂了:
传统策略梯度算法
策略近似
设$\theta$为神经网络参数,基于策略的强化学习用参数化概率分布$\pi_{\theta}(a | s) = P(a | s; \theta)$确定策略,在返回的动作概率列表中对不同的动作进行抽样选择。
定义目标函数
目标就是找到那些可能获得更多奖励期望值的动作,使它们对应的概率更大,从而策略就更有可能选择这些动作。
定义的最大化目标函数:
$$
\max_{\theta} J(\theta) = \max_{\theta} E_{\tau \sim \pi_{\theta} } (R(\tau)) = \max_{\theta} \sum_{\tau} P(\tau; \theta) R(\tau)
$$
其中$\tau$是agent与环境交互产生的状态-动作轨迹$\tau = (s_1, a_1, \dots, s_T, a_T)$。我们的目标是通过调整$\theta$,使得获得更大奖励期望的轨迹出现的概率更高。
其中,轨迹$\tau$在策略$\pi_{\theta}(a | s)$下发生的概率为:
$$
P(\tau; \theta) = \left[ \prod_{t = 0}^T P(s_{t + 1} | s_t, a_t) \cdot \pi_{\theta} (a_t | s_t) \right]
$$
实际枚举所有可能的轨迹是很困难的,基本都需要通过大量采样得到样本求期望值近似。
策略梯度
$$
\begin{aligned}
\nabla_{\theta} J(\theta) &= \sum_{\tau} \nabla_{\theta} P(\tau; \theta) \cdot R(\tau) \\
&= \sum_{\tau} P(\tau; \theta) \frac{\nabla_{\theta} P(\tau; \theta)}{P(\tau; \theta)} R(\tau) \\
&= \sum_{\tau} P(\tau; \theta) \cdot \nabla_{\theta} \log P(\tau; \theta) \cdot R(\tau)
\end{aligned}
$$
根据$P(\tau; \theta)$可得:
$$
\begin{aligned}
\nabla_{\theta} \log P(\tau; \theta) &= \nabla_{\theta} \left[ \sum_{t = 0}^T \log P(s_{t + 1} | s_t, a_t) + \sum_{t = 0}^T \log \pi_{\theta} (a_t | s_t) \right] \\
&= \sum_{t = 0}^T \nabla_{\theta} \log \pi_{\theta} (a_t | s_t)
\end{aligned}
$$
假设当前有$m$条轨迹的样本:
$$
\begin{aligned}
\nabla_{\theta} J(\theta) &\approx \frac{1}{m} \sum_{i = 1}^{m} \nabla_{\theta} \log P(\tau^{(i)}; \theta) \cdot R(\tau^{(i)}) \\
&= \frac{1}{m} \sum_{i = 1}^{m} \left[ \sum_{t^{(i)} = 0}^{T^{(i)}} \nabla_{\theta} \log \pi_{\theta} (a_{t^{(i)}} | s_{t^{(i)}}) \right] \cdot R(\tau^{(i)}) \\
&= \frac{1}{n} \sum_{i = 1}^{n} \nabla_{\theta} \log \pi_{\theta} (a_i | s_i) \cdot R(\tau_i) \quad \left( n = \sum_{i = 1}^{m} (T^{(i)} + 1) \right)
\end{aligned}
$$
策略梯度的更新规则:
$$
\theta \leftarrow \theta + \alpha \cdot \nabla_{\theta} J(\theta)
$$
Softmax策略
对于离散动作空间:
$$
\pi_{\theta}(a | s) = \frac{e^{\phi(s, a)^T \theta}}{\sum_{a’ \in A} e^{\phi(s, a’)^T \theta}}
$$
对应的策略梯度:
$$
\begin{aligned}
&\quad \nabla_{\theta} \log \pi_{\theta}(a | s) \\
&= \nabla_{\theta} \left(\phi(s, a)^T \theta - \log \sum_{a’ \in A} e^{\phi(s, a’)^T \theta} \right) \\
&= \phi(s, a) - \frac{\sum_{a’ \in A} \phi(s, a’) \cdot e^{\phi(s, a’)^T \theta}}{\sum_{a’ \in A} e^{\phi(s, a’)^T \theta}} \\
&= \phi(s, a) - \sum_{a’ \in A} \phi(s, a’) \cdot \pi_{\theta}(a’ | s)
\end{aligned}
$$
如果奖励信号很高并且观察到的向量与平均向量相差很大,就会有增加该动作概率的强烈趋势。
高斯策略
对于连续动作空间:
$$
\pi_{\theta}(a | s) = \frac{1}{\sqrt{2 \pi} \sigma_{\theta}} e^{- \frac{(a - \mu_{\theta})^2}{2 \sigma_{\theta}^2}}
$$
其中正态分布的均值$\mu_{\theta} = \phi(s, a)^T \theta$。
对应的策略梯度:
$$
\begin{aligned}
&\quad \nabla_{\theta} \log \pi_{\theta}(a | s) \\
&= \nabla_{\theta} \left(-\frac{1}{2} \cdot \log (2 \pi \sigma_{\theta}^2) - \frac{(a -\mu_{\theta})^2}{2 \sigma_{\theta}^2} \right) \\
&= \frac{(a - \mu_{\theta})\phi(s, a)}{\sigma_{\theta}^2}
\end{aligned}
$$
在高回报的情况下,远离均值的动作会触发强烈的更新信号。
在实际任务中,我们没有必要手动计算偏导数,使用深度学习框架的自动求导。定义损失函数:
$$
\mathcal{L}(a, s, r) = -\log(\pi_\theta(a | s)) r
$$
即可让计算机自动求导。
算法实现
1 | Network: theta := R^(|theta|) |
这里对于一条路径,将路径上每一个状态都进行了计算,对信息的利用最大化。
自然策略梯度算法
传统策略梯度算法的缺陷
在传统的策略梯度算法中,权重更新会遇到两个问题:
- 过冲(Overshooting): 更新错过了奖励峰值并落入了次优策略区域
- 下冲(Undershooting): 在梯度方向上采取过小的更新步长会导致收敛缓慢
在监督学习问题中,overshooting不是什么问题,因为数据是固定的,我们可以在下一个epoch中重新纠正;但在强化学习问题中,如果因为overshooting陷入了一个较差的策略区域,则未来的样本批次可能不会提供太多有意义的信息,用较差的数据样本再去更新策略,从而陷入了糟糕的正反馈中无法恢复。较小的学习率可能会解决这个问题,但会导致收敛速度变慢的undershooting问题。
限制策略更新的差异
我们需要表示策略(分布)之间的差异,而不是参数本身的差异。计算两个概率分布之间的差异,最常见的是KL散度,也称为相对熵,描述了两个概率分布之间的距离:
$$
\mathcal{D}{KL}(\pi{\theta} || \pi_{\theta + \Delta \theta}) = \sum_{x \in \Chi} \pi_{\theta}(x) \log \left( \frac{\pi_{\theta}(x)}{\pi_{\theta + \Delta \theta}(x)} \right)
$$
调整后的策略更新限制为:
$$
\Delta \theta^{*} = \argmax_{\Delta \theta, \mathcal{D}{KL}(\pi{\theta} || \pi_{\theta + \Delta \theta}) \le \epsilon} J(\theta + \Delta \theta)
$$
然而,计算KL散度需要遍历所有的状态-动作对,因此我们需要一些化简来处理现实的RL问题。
首先,我们使用拉格朗日松弛将原表达式的发散约束转化为惩罚项,得到一个更容易求解的表达式:
$$
\Delta \theta^{*} = \argmax_{\Delta \theta} J(\theta + \Delta \theta) - \lambda(\mathcal{D}{KL}(\pi{\theta} || \pi_{\theta + \Delta \theta}) - \epsilon)
$$
用近似方法来化简。通过泰勒展开:
$$
\begin{aligned}
\Delta \theta^{*} &\approx \argmax_{\Delta \theta} J(\theta) + \nabla_{\theta} J(\theta) \cdot \Delta \theta - \frac{1}{2} \lambda (\Delta \theta^{T} F(\theta) \Delta \theta) + \lambda \epsilon \\
&\approx \argmax_{\Delta \theta} \nabla_{\theta} J(\theta) \cdot \Delta \theta - \frac{1}{2} \lambda (\Delta \theta^{T} F(\theta) \Delta \theta) \\
F(\theta) &= \mathbb{E}{\theta} [ \nabla{\theta} \log \pi_{\theta}(x) \nabla_{\theta} \log \pi_{\theta}(x)^{T} ]
\end{aligned}
$$
KL散度近似于二阶泰勒展开。用Fisher信息矩阵代替二阶导数,除了符号紧凑性外,还可以大大减少计算开销。
解决KL约束问题
对于近似简化后的表达式,可以通过将关于$\Delta \theta$的梯度设置为0,来找到最优的权重更新$\Delta \theta$:
$$
\begin{aligned}
0 &= \frac{\partial}{\partial \Delta \theta} \left( \nabla_{\theta} J(\theta) \Delta \theta - \frac{1}{2} \lambda \Delta \theta^{T} F(\theta) \Delta \theta \right) \\
&= \nabla_{\theta} J(\theta) - \frac{1}{2} \lambda F(\theta) \Delta \theta \\
\Delta \theta &= - \frac{2}{\lambda} F(\theta)^{-1} \nabla_{\theta} J(\theta)
\end{aligned}
$$
其中,$\lambda$是一个常数,可以吸收到学习率$\alpha$中。根据$\mathcal{D}{KL}(\pi{\theta} || \pi_{\theta + \Delta \theta}) \le \epsilon$,我们可以推出动态学习率:
$$
\alpha = \sqrt{\frac{2 \epsilon}{\nabla J(\theta)^T} F(\theta)^{-1} \nabla J(\theta)}
$$
可以确保每次更新的KL散度(近似)等于$\epsilon$。
自然策略梯度:
$$
\tilde{\nabla} J(\theta) = F(\theta)^{-1} \nabla J(\theta)
$$
最终的权重更新方案为:
$$
\Delta \theta = \sqrt{\frac{2 \epsilon }{\nabla J(\theta)^T F(\theta)^{-1} \nabla J(\theta)}} \tilde{\nabla} J(\theta)
$$
该方案的强大之处在于,无论分布的表示如何,它总是以相同的幅度改变策略。
信赖域策略优化算法(TRPO)
自然策略梯度算法的缺陷
- 近似值可能会违反KL约束,从而导致分析得出的步长过大,超出限制要求
- 矩阵$F$的计算时间太长,是$O(N^3)$复杂度的运算
- 我们没有检查更新是否真的改进了策略。由于存在大量的近似过程,策略可能并没有优化
算法理论
针对自然策略梯度算法的问题,我们希望可以对策略的优化进行量化,从而保证每次的更新一定是优化作用的。为此,我们需要计算两种策略之间预期回报的差异。这里采用的是原策略预期回报添加新策略预期优势的方式。该表达式在原策略下计算优势函数,无需重新采样:
$$
J(\pi_{\theta + \Delta \theta}) = J(\pi_{\theta}) + \mathbb{E}{\tau \sim \pi{\theta + \Delta \theta}} \sum_{t = 0}^{\infin} \gamma^{t} A^{\pi_{\theta}}(s_t, a_t)
$$
其中优势函数的定义为:
$$
A^{\pi_{\theta}}(s, a) = \mathbb{E}(Q^{\pi_{\theta}}(s, a) - V^{\pi_{\theta}}(s))
$$
由于时间范围是无限的,引入状态的折扣分布:
$$
\rho_{\pi}(s) = \sum_{k = 0}^{\infin} \gamma^{k} P(s_k = s)
$$
原差异表达式可重新表示为:
$$
J(\pi_{\theta + \Delta \theta}) = J(\pi_{\theta}) + \sum_{s \in \mathcal{S}} \rho_{\pi_{\theta + \Delta \theta}}(s) \sum_{a \in \mathcal{A}} \pi_{\theta + \Delta \theta}(a | s) A^{\pi_{\theta}}(s, a)
$$
引入近似误差,使用当前策略近似:
$$
J(\pi_{\theta + \Delta \theta}) \approx J(\pi_{\theta}) + \sum_{s \in \mathcal{S}} \rho_{\pi_{\theta}}(s) \sum_{a \in \mathcal{A}} \pi_{\theta + \Delta \theta}(a | s) A^{\pi_{\theta}}(s, a)
$$
将状态分布求和替换为期望,方便实际计算时使用蒙特卡洛模拟进行采样,同时将动作求和替换为重要性采样。通过重要性采样,可以有效利用当前策略的行动期望,并针对新策略下的概率进行了修正:
$$
\begin{aligned}
J(\pi_{\theta + \Delta \theta}) &= J(\pi_{\theta}) + \sum_{s \in \mathcal{S}} \rho_{\pi_{\theta + \Delta \theta}}(s) \sum_{a \in \mathcal{A}} \pi_{\theta + \Delta \theta}(a | s) A^{\pi_{\theta}}(s, a) \\
&= J(\pi_{\theta}) + \mathbb{E}{s \sim \rho{\pi_{\theta + \Delta \theta}}} \pi_{\theta + \Delta \theta}(a | s) A^{\pi_{\theta}}(s, a) \\
&\approx J(\pi_{\theta}) + \mathbb{E}{s \sim \rho{\pi_{\theta}}} \frac{\pi_{\theta + \Delta \theta}(a | s)}{\pi_{\theta}(a | s)} A^{\pi_{\theta}}(s, a)
\end{aligned}
$$
描述更新策略相对于原策略的预期优势称为替代优势:
$$
J(\pi_{\theta + \Delta \theta}) - J(\pi_{\theta}) \approx \mathbb{E}{s \sim \rho{\pi_{\theta}}} \frac{\pi_{\theta + \Delta \theta}(a | s)}{\pi_{\theta}(a | s)} A^{\pi_{\theta}}(s, a) = \mathcal{L}{\pi{\theta}}(\pi_{\theta + \Delta \theta})
$$
之前产生的近似误差可以用两种策略之间最坏情况的KL散度表示:
$$
J(\pi_{\theta + \Delta \theta}) - J(\pi_{\theta}) \ge \mathcal{L}{\pi{\theta}}(\pi_{\theta + \Delta \theta}) - C \mathcal{D}{KL}^{\max} (\pi{\theta} || \pi_{\theta + \Delta \theta})
$$
论文中推导出$C$的值以及目标函数改进的下限。如果我们改进右侧,可以保证左侧也得到改进。本质上,如果替代优势$\mathcal{L}{\pi{\theta}}(\pi_{\theta + \Delta \theta})$超过最坏情况下的近似误差$C \mathcal{D}{KL}^{\max} (\pi{\theta} || \pi_{\theta + \Delta \theta})$,我们一定会改进目标。
这就是单调改进定理。相应的过程是最小化最大化算法(MM)。即如果我们改进下限,我们也会将目标改进至少相同的量。
算法实现
在实际的算法实现方面,TRPO和自然策略梯度算法没有太大的区别。TRPO的核心是利用单调改进定理,验证更新是否真正改进了我们的策略。
咕咕咕
近端策略优化算法(PPO)
TRPO算法的缺陷
- 无法处理大参数矩阵
- 二阶优化很慢
- TRPO 很复杂
PPO Penalty
TRPO在理论分析上推导出与KL散度相乘的惩罚项,但在实践中,这种惩罚往往过于严格,只产生非常小的更新。因此,问题是如何可靠地确定缩放参数$\beta$,同时避免overshooting:
$$
\Delta \theta^* = \argmax_{\Delta \theta} \mathcal{L}{\theta + \Delta \theta}(\theta + \Delta \theta) - \beta \mathcal{D}{KL}(\pi_{\theta} || \pi_{\theta + \Delta \theta})
$$
PPO通过设置目标散度$\delta$的方式解决了这个问题,希望我们的每次更新都位于目标散度附近的某个地方。目标散度应该大到足以显著改变策略,但又应该小到足以使更新稳定。
每次更新后,PPO都会检查更新的大小。如果最终更新的散度超过目标散度的1.5倍,则下一次迭代我们将加倍$\beta$来更加重惩罚。相反,如果更新太小,我们将$\beta$减半,从而有效地扩大信任区域。迭代更新的思路与TRPO线搜索有一些相似之处,但PPO搜索是在两个方向上都有效的,而TRPO是单向减小的。
只是基于启发式确定的。根据经验,PPO对数值设置是非常不敏感的。总之,我们牺牲了一些数学上的严谨性来使实际的效果更好。
1 | Input: initial policy parameters theta_0, initial KL penalty beta_0, target KL-divergence delta |
PPO Clip
与其费心随着时间的推移改变惩罚,PPO Clip直接限制策略可以改变的范围。我们重新定义了替代优势:
$$
\mathcal{L}{\pi{\theta}}^{CLIP}(\pi_{\theta_k}) \\
= \mathbb{E}{\tau \sim \pi{\theta}} \left[ \sum_{t=0}^T [\min \left( \rho_t(\pi_{\theta}, \pi_{\theta_k})A_{t}^{\pi_{\theta_k}}, clip(\rho_t(\pi_{\theta}, \pi_{\theta_k}), 1 - \epsilon, 1 + \epsilon)A_{t}^{\pi_{\theta_k}} \right)] \right]
$$
$\rho_t$ 为重要性采样:
$$
\rho_t(\theta) = \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_k}(a_t | s_t)}
$$
为了实现想要达到的效果,我们应该调整$\epsilon$,作为对KL散度的隐式限制。根据经验,$\epsilon=0.1 or 0.2$是实际效果较好的值。
PPO2
PPO2是Open AI发布的算法更新版本,是矢量化环境的PPO算法实现,针对 GPU 进行了优化,更好地支持并行训练。它与PPO也有许多实际实现的差异,例如优势被自动归一化、价值函数被裁剪等,但与本文概述的PPO具有相同的数学基础。如果需要直接使用OpenAI实现的PPO算法,则应该使用PPO2。