Online Learning 基于模型的强化学习

基于模型的强化学习

强化学习

RL：智能体[与环境交互]{.underline}以学习良好的决策策略。

环境由[马尔可夫决策过程（MDP）]{.underline}建模：

$H$： episode 的长度，
$\mathcal{A}$：可能动作的集合，
${S_h}_{h=1}^H$：在时间 $h$ 的可能状态集合，
$r(s,a)$：在状态 $s$ 执行动作 $a$ 的即时奖励（不失一般性，假设 $r(s,a) \in [0,1]$ 为确定性），
$P(\cdot \mid s,a)$：状态-动作对 $(s,a)$ 的转移概率。

表格情况

$S_h$（对所有 $h$），$\mathcal{A}$ 均为有限集合。令 $S = \max_h |S_h|$，$A = |\mathcal{A}|$。

总共有 $K$ 个 episode。设 $\pi_k: \bigcup_{h=1}^H S_h \to \mathcal{A}$ 为智能体在第 $k$ 个 episode（$k \in [K]$）选择的（不失一般性为确定性）策略。

损失

$R_T \triangleq \mathbb{E} \sum_{k=1}^K \left[ V^\ast(s_1^k) - V^{\pi_k}(s_1^k) \right], \text{ 其中 } T = KH.$

策略评估

$V^\pi(s_h) = \mathbb{E} \left[ r_h(s_h, a_h) + V^\pi(s_{h+1}) \mid s_{h+1} \sim P_h(\cdot \mid s_h, a_h), a_h = \pi(s_h) \right] = Q^\pi(s_h, \pi(s_h)),$ 其中 $Q^\pi(s_h, a_h) = \mathbb{E} \left[ r_h(s_h, a_h) + V^\pi(s_{h+1}) \mid s_{h+1} \sim P_h(\cdot \mid s_h, a_h) \right].$

最优策略

$V^\ast(s_h) = \max_\pi { V^\pi(s_h) } = \max_{a_h} { Q^\ast(s_h, a_h) },$ 其中 $Q^\ast(s_h, a_h) = \max_\pi { Q^\pi(s_h, a_h) } = \mathbb{E} \left[ r_h(s_h, a_h) + V^\ast(s_{h+1}) \mid s_{h+1} \sim P_h(\cdot \mid s_h, a_h) \right].$

最优极小极大损失

上下界均为 $\widetilde{\mathcal{O}}(H \sqrt{SAT})$（忽略 $\mathrm{polylog}(S,A,H,K)$ 因子）。— 我们算法的目标。

MDP 的过度简化视角：堆叠的多臂老虎机

假设我们已知所有 $h$ 的 $V^\ast_h$。给定 $s_h$，智能体需确定 $\arg\max_{a \in \mathcal{A}} \left\{ r_h(s_h, a) + P_{s_h,a,h} V^\ast_{h+1} \right\}$，这可视为一个具有 $A$ 个臂的老虎机问题。

在状态 $s_h$ 上玩老虎机所造成的总损失：$\widetilde{\mathcal{O}}\left( H \cdot \sqrt{A \cdot N_h(s_h)} \right) \quad \text{（其中，} N_h(s_h): \text{ 访问 } s_h \text{ 的总次数）}.$

因此，MDP 的总损失为： $\sum_{h=1}^H \sum_{s_h \in S_h} \widetilde{\mathcal{O}}\left( H \cdot \sqrt{A \cdot N_h(s_h)} \right) \le \widetilde{\mathcal{O}}\left( H \sqrt{A} \cdot \sqrt{HS} \right) \cdot \sqrt{ \sum_{h=1}^H \sum_{s_h \in S_h} N_h(s_h) }
\le \widetilde{\mathcal{O}}\left( H \sqrt{SAH} \cdot \sqrt{T} \right) = \widetilde{\mathcal{O}}\left( H \sqrt{HSAT} \right).$

需要消除 $\sqrt{H}$ 因子。

通过总方差引理进行方差缩减

回顾（作业1）：若臂 $i$ 的方差为 $V_i$，我们可以构建长度约为 $\sqrt{V_i / T_i(t)}$ 的置信区间（忽略低阶项），且损失可（大致）界于 $\sum_i \sqrt{V_i \cdot T_i}$。

MDP 的总方差引理

令 $V(P, V) \triangleq PV^2 - (PV)^2$。以高概率，我们有 $\sum_{k=1}^K \sum_{h=1}^H V(P_{s_h^k, a_h^k, h}, V^\ast_{h+1}) \le \widetilde{\mathcal{O}}(TH + H^2T). \tag{*}$

利用该引理，总损失（假设 ${V^\ast_h}$ 已知，使用方差感知的老虎机算法）可被界为（忽略对数因子） $\begin{aligned} \sum_{h=1}^H \sum_{s_h \in S_h} \sum_{a \in \mathcal{A}} \sqrt{V(P_{s_h,a,h}, V^\ast_{h+1}) \cdot N_h(s_h,a)} &\le \sqrt{HSA} \cdot \sqrt{ \sum_{h} \sum_{s_h} \sum_{a} V(P_{s_h,a,h}, V^\ast_{h+1}) \cdot N_h(s_h,a) } \\ &\le \sqrt{HSA \cdot \widetilde{\mathcal{O}}(TH + H^2T)} \le \widetilde{\mathcal{O}}(H \sqrt{SAT}) \quad \text{（当 } T \text{ 很大时）}. \end{aligned}$

总方差引理的证明

(*) 的左侧 = $\begin{aligned} &\sum_k \sum_h \left[ P_{s_h^k, a_h^k, h} (V^\ast_{h+1})^2 - \left( P_{s_h^k, a_h^k, h} V^\ast_{h+1} \right)^2 \right] \\ &\le \underbrace{ \sum_k \sum_h \left[ P_{s_h^k, a_h^k, h} (V^\ast_{h+1})^2 - V^\ast_{h+1}(s_{h+1}^k)^2 \right] }_{(**)} + \underbrace{ 2H \cdot \sum_k \sum_h \left| V^\ast_{h}(s_h^k) - P_{s_h^k, a_h^k, h} V^\ast_{h+1} \right| }_{(***)}. \end{aligned}$

其中，

\[\begin{aligned} (**) &\le \sum_k \sum_h \left[ P_{s_h^k, a_h^k, h} (V^\ast_{h+1})^2 - V^\ast_{h+1}(s_{h+1}^k)^2 \right] \quad \text{（省略 } -V^\ast_{h}(s_h^k)^2\text{）} \\ &\le \widetilde{\mathcal{O}}(H^2T), \quad \text{（以高概率，由Azuma不等式）} \\ (***) &= \sum_k \sum_h \left( V^\ast_{h}(s_h^k) - P_{s_h^k, a_h^k, h} V^\ast_{h+1} \right) \\ &= \sum_k \left[ V^\ast_{1}(s_1^k) + \sum_{h=1}^H \left( V^\ast_{h+1}(s_{h+1}^k) - P_{s_h^k, a_h^k, h} V^\ast_{h+1} \right) \right] \\ &\le KH + \widetilde{\mathcal{O}}(H\sqrt{T}) \quad \text{（以高概率，由Azuma不等式）} \end{aligned}\]

综上，以高概率，我们有 $\text{(*)的左侧} \le \widetilde{\mathcal{O}}(H^2T) + 2H(KH + \widetilde{\mathcal{O}}(H\sqrt{T})) \le \widetilde{\mathcal{O}}(HT + H^2T).$

基于模型的RL

对每个 episode $k \gets 1,2,3,\dots,K$ 执行：

基于过往观测计算 $\widetilde{P}^k$（样本平均值）
计算 $V^k_h(s) = \max_a Q^k_h(s,a)$，其中 $Q^k_h(s,a) = \min \left\{ Q^{k-1}_h(s,a), r_h(s,a) + \widetilde{P}^k_{s,a,h} V^k_{h+1} + b^k_h(s,a) \right\},$ 此处 $b^k_h(s,a) = \widetilde{\mathcal{O}}\left( H \cdot n^k_h(s,a)^{-1/2} \right) \quad \text{（探索奖励）}$ $n^k_h(s,a): \text{ 在 episode } k \text{ 之前访问 } (s,a,h) \text{ 的次数}.$
$\pi_k \gets$ 相对于 $Q^k$ 的贪婪策略，运行 $\pi_k$ 于第 $k$ 个 episode。

观察

$V^k_h(s)$ 和 $Q^k_h(s,a)$ 随 $k$ 非增。

声明（习题）

以高概率，对所有 $k$，有 $V^k_h \ge V^\ast_h$，$Q^k_h \ge Q^\ast_h$。

损失分析

第 $k$ 个 episode 中造成的损失：$V^\ast_1(s_1^k) - V^{\pi_k}_1(s_1^k) \le V^k_1(s_1^k) - V^{\pi_k}_1(s_1^k).$

对任意 $h$，我们有

\[\begin{aligned} V^k_h(s_h^k) - V^{\pi_k}_h(s_h^k) &= \max_a \{ Q^k_h(s_h^k, a) \} - Q^{\pi_k}_h(s_h^k, a_h^k) \\ &= Q^k_h(s_h^k, a_h^k) - Q^{\pi_k}_h(s_h^k, a_h^k) \\ &\le \widetilde{P}^k_{s_h^k, a_h^k, h} V^k_{h+1} + b^k_h(s_h^k, a_h^k) - P_{s_h^k, a_h^k, h} V^{\pi_k}_{h+1} \\ &\overset{(?)}{\le} P_{s_h^k, a_h^k, h} V^k_{h+1} + 2b^k_h(s_h^k, a_h^k) - P_{s_h^k, a_h^k, h} V^{\pi_k}_{h+1} \\ &= P_{s_h^k, a_h^k, h} (V^k_{h+1} - V^{\pi_k}_{h+1}) + 2b^k_h(s_h^k, a_h^k). \end{aligned}\]

注记

不等式 (?) 可能不成立，因为可能存在 $V^k_{h+1}(s_{h+1}^{l_1}), \; V^k_{h+1}(s_{h+1}^{l_2}), \; \dots, \; V^k_{h+1}(s_{h+1}^{l_m})$ 之间的相关性，其中 $m = n^k_h(s_h^k, a_h^k)$，$l_i$ 是第 $i$ 次访问 $(s_h^k, a_h^k, h)$ 所在的 episode 编号。

假设不等式 (?) 成立，令 $T_h = - \sum_{k=1}^K (V^k_{h+1} - V^{\pi_k}_{h+1})(s_{h+1}^k) + \sum_{k=1}^K P_{s_h^k, a_h^k, h} (V^k_{h+1} - V^{\pi_k}_{h+1})$，我们有 $\sum_{k=1}^K (V^k_h - V^{\pi_k}_h)(s_h^k) \le \sum_{k=1}^K (V^k_{h+1} - V^{\pi_k}_{h+1})(s_{h+1}^k) + T_h + 2 \sum_{k=1}^K b^k_h(s_h^k, a_h^k).$

因此，总损失上界为

\[\sum_{k=1}^K (V^k_1 - V^{\pi_k}_1)(s_1^k) \le \sum_{h=1}^H T_h + 2 \sum_{h=1}^H \sum_{k=1}^K b^k_h(s_h^k, a_h^k)\] \[\begin{aligned} &\le \widetilde{\mathcal{O}}(H\sqrt{T}) + 2 \sum_{h=1}^H \sum_{k=1}^K b^k_h(s_h^k, a_h^k) \quad \text{（以高概率，由Azuma不等式）} \\ &\le \widetilde{\mathcal{O}}(H\sqrt{T}) + \sum_{s,a,h} \sum_{n=1}^{N_h(s,a)} \widetilde{\mathcal{O}}(H/\sqrt{n}) \\ &\le \widetilde{\mathcal{O}}(H\sqrt{T}) + \sum_{s,a,h} \widetilde{\mathcal{O}}(H \sqrt{N_h(s,a)}) \le \widetilde{\mathcal{O}}(H\sqrt{T}) + H \cdot \widetilde{\mathcal{O}}\left( \sqrt{SAH \cdot \sum_{s,a,h} N_h(s,a)} \right) \\ &\le \widetilde{\mathcal{O}}(H\sqrt{T} + H \sqrt{HSAT}) = \widetilde{\mathcal{O}}(H \sqrt{HSAT}). \end{aligned}\]

修正依赖性问题

方法1

以高概率，$\forall s$，有 $\left| P_{s_h^k, a_h^k, h}(s) - \widetilde{P}^k_{s_h^k, a_h^k, h}(s) \right| \le \widetilde{\mathcal{O}}\left( n^k_h(s_h^k, a_h^k)^{-1/2} \right). \quad \text{（Hoeffding-Azuma）}$

因此，$\left| \left( P_{s_h^k, a_h^k, h} - \widetilde{P}^k_{s_h^k, a_h^k, h} \right) V^k_{h+1} \right| \le SH \cdot \widetilde{\mathcal{O}}\left( n^k_h(s_h^k, a_h^k)^{-1/2} \right) \le S \cdot b^k_h(s_h^k, a_h^k).$

损失上界扩大了 $S$ 倍。

方法2

写为 $\widetilde{P}^k_{s_h^k, a_h^k, h} V^k_{h+1} = \widetilde{P}^k_{s_h^k, a_h^k, h} (V^k_{h+1} - V^\ast_{h+1}) + \widetilde{P}^k_{s_h^k, a_h^k, h} V^\ast_{h+1}$。

对第二项，以高概率，有 $\widetilde{P}^k_{s_h^k, a_h^k, h} V^\ast_{h+1} \le P_{s_h^k, a_h^k, h} V^\ast_{h+1} + b^k_h(s_h^k, a_h^k).$

对第一项，我们使用以下声明。

声明

以高概率， $\begin{aligned} &\left( \widetilde{P}^k_{s_h^k, a_h^k, h} - P_{s_h^k, a_h^k, h} \right) (V^k_{h+1} - V^\ast_{h+1}) \\ &\le \underbrace{ H \mathbf{1}\left[ n^k_h(s_h^k, a_h^k) \le c \cdot S^6 A^2 H^{16} \log T \right] }_{(\#)} + \underbrace{ \widetilde{\mathcal{O}}\left( SH \cdot n^k_h(s_h^k, a_h^k)^{-1} \right) }_{(\#\#)} + b^k_h(s_h^k, a_h^k). \end{aligned}$

利用上述声明，我们有 $\widetilde{P}^k_{s_h^k, a_h^k, h} V^k_{h+1} \le P_{s_h^k, a_h^k, h} V^k_{h+1} + (\#) + (\#\#) + 2b^k_h(s_h^k, a_h^k).$

在最终损失上界中，我们有两个额外的低阶项：

\[\begin{aligned} \sum_{h,k} (\#) &\le c \cdot S^6 A^2 H^{16} \log T \cdot H \cdot SAH \le \widetilde{\mathcal{O}}(S^7 A^3 H^{18}). \\ \sum_{h,k} (\#\#) &\le SAH \cdot \widetilde{\mathcal{O}}(SH \cdot \log T) \le \widetilde{\mathcal{O}}(S^2 A H^2). \end{aligned}\]

声明的证明思路

引理（习题） 以高概率，对所有 $s,h,k$，有 $V^k_h(s) - V^\ast_h(s) \le \widetilde{\mathcal{O}}(SAH^8 n^k_h(s)^{-1/2}).$

当 $n^k_h(s_h^k, a_h^k) > c \cdot S^6 A^2 H^{16} \log T$ 时，调用此引理：

对所有 $s$：$P_{s_h^k, a_h^k, h}(s) \ge 1/S^2$，我们有（以高概率）$n^k_{h+1}(s) \ge \frac{c}{2} S^4 A^2 H^{16} \log T, \quad \text{（由 Chernoff 不等式）}$ 因此由该引理：$V^k_{h+1}(s) - V^\ast_{h+1}(s) \le 1/S$。
对所有 $s$：$P_{s_h^k, a_h^k, h}(s) < 1/S^2$，我们有（以高概率）$\widetilde{P}^k_{s_h^k, a_h^k, h}(s) \le P_{s_h^k, a_h^k, h}(s) + \widetilde{\mathcal{O}}\left( S^{-1} \cdot n^k_h(s_h^k, a_h^k)^{-1/2} + n^k_h(s_h^k, a_h^k)^{-1} \right). \quad \text{（由 Bernstein 不等式）}$

综合两种情况，我们有

\[\begin{aligned} &\left( \widetilde{P}^k_{s_h^k, a_h^k, h} - P_{s_h^k, a_h^k, h} \right) (V^k_{h+1} - V^\ast_{h+1}) \\ &\le \sum_{s \text{ 在情况1中}} \left| \left( \widetilde{P}^k_{s_h^k, a_h^k, h} - P_{s_h^k, a_h^k, h} \right)(s) \right| \cdot \frac{1}{S} + \sum_{s \text{ 在情况2中}} \widetilde{\mathcal{O}}\left( S^{-1} \cdot n^k_h(s_h^k, a_h^k)^{-1/2} + n^k_h(s_h^k, a_h^k)^{-1} \right) \cdot H \\ &\overset{\text{（以高概率，方法1）}}{\le} S \cdot \widetilde{\mathcal{O}}\left( n^k_h(s_h^k, a_h^k)^{-1/2} \right) \cdot \frac{1}{S} + \widetilde{\mathcal{O}}\left( n^k_h(s_h^k, a_h^k)^{-1/2} / S \right) \cdot H \cdot S + HS \cdot \widetilde{\mathcal{O}}\left( n^k_h(s_h^k, a_h^k)^{-1} \right) \\ &\le b^k_h(s_h^k, a_h^k) + \widetilde{\mathcal{O}}\left( n^k_h(s_h^k, a_h^k)^{-1} \cdot HS \right). \end{aligned}\]

上置信界值迭代（UCBVI，Azar-Osband-Munos’2017）

UCBVI 算法优化了探索奖励 $b^k_h(s,a)$：$H$ 因子被一个基于经验方差 $\widetilde{P}^k_{s,a,h} (V^k_{h+1})^2 - \left( \widetilde{P}^k_{s,a,h} V^k_{h+1} \right)^2$ 和 Bernstein 不等式推导出的方差感知因子所替代。结合总方差引理，可证 UCBVI 的损失为 $\widetilde{\mathcal{O}}(H \sqrt{SAT})$（当 $T$ 较大时）。

Written on March 1, 2026