Online Learning 对抗性多臂老虎机

本文研究了对抗性多臂老虎机问题，其中对手在每个时间步自适应地选择隐藏的奖励向量，玩家选择一个动作并获得相应奖励，目标是最小化相对于最佳固定动作的累积奖励损失（即遗憾）。在仅能观测所选动作奖励的经典老虎机设置中，存在下界 Ω(√nT)；而在能观测全部奖励的全信息设置中，遗憾可降至 O(√T log n)。文章的核心是提出并分析 EXP3 算法：该算法通过维护动作权重、构造奖励的无偏估计量来应对部分观测信息，并采用指数加权更新策略。分析表明，EXP3 算法在多臂老虎机设置中实现了 $O(T log n)$ 的遗憾上界，该结果通过乘法权重框架的分析技术得以证明，为对抗性环境下的在线学习提供了经典解决方案。

对抗性多臂老虎机

设置

$n$ 个动作，时间范围 $T$

FOR $t=1,2,3,\cdots,T$ DO

对手选择奖励向量 $(r_{t,1}, r_{t,2}, \dots, r_{t,n}) \in [0,1]^n$。（对玩家隐藏）
玩家选择一个动作 $a_t$，执行 $a_t$。
玩家观测并获得奖励 $r_t = r_{t,a_t}$（多臂老虎机设置）
或
玩家观测完整的奖励向量并获得 $r_t = r_{t,a_t}$（全信息设置）

损失

\[R_T \triangleq \mathbb{E}\left[ \max_{a \in [n]} \left\{ \sum_{t=1}^T r_{t,a} \right\} - \sum_{t=1}^T r_t \right] \quad \text{（期望取自玩家和对手的随机性）}\]

观察1

玩家策略必须是随机的，才能实现 $o(T)$ 的损失。

观察2

随机老虎机下界 $\Rightarrow$ 对抗性老虎机下界。
即：对任意玩家策略 $\pi$，存在对手使得 $R_T^\pi \geq \Omega(\sqrt{nT})$

主要定理

在多臂老虎机设置中，存在玩家策略 $\pi$，使得 $R_T^\pi \leq O(\sqrt{nT \log n})$。

乘法权重法：专家问题

热身问题

$n$ 个专家，时间范围 $T$。
每个时间步：

每个专家给出“是/否”建议。
玩家决定“是/否”。
玩家若决策错误则遭受损失。

问题1

若存在一个专家始终给出正确建议。最佳的玩家策略是什么？（在最坏情况下，玩家遭受损失的最小次数是多少？）

答案

$\lceil \log_2 n \rceil$。玩家始终跟随多数意见，并淘汰给出错误建议的专家。
$\Rightarrow$ 玩家每次遭受损失时，至少淘汰一半剩余专家
$\Rightarrow$ 玩家最多遭受 $\lceil \log_2 n \rceil$ 次损失。

问题2

若存在一个专家最多给出 $M$ 次错误建议。最佳玩家策略是什么？

简单方法

$M \lceil \log_2(n+1) \rceil + \lceil \log_2 n \rceil$。
使用多数策略直到所有专家被淘汰，然后重新招募并重复此过程，最多执行 $(M+1)$ 次。

更优方法（软惩罚/乘法权重）

为每个专家分配权重，初始权重为 $w_i^{(0)} = 1 \; \forall i \in [n]$。
在时间 $t$，根据权重 ${w_i^{(t)}}_{i \in [n]}$ 采取加权多数决策。
更新权重： $w_i^{(t+1)} = \begin{cases} w_i^{(t)} & \text{专家 } i \text{ 正确} \\ w_i^{(t)}/2 & \text{专家 } i \text{ 错误} \end{cases}$

分析

使用势函数 $W^{(t)} = \sum_{i=1}^n w_i^{(t)}$。我们有 $W^{(0)} = n$。

命题

若玩家在时间 $t$ 遭受损失，则 $W^{(t+1)} \leq \frac{3}{4} W^{(t)}$。

令 $R$ 为玩家遭受损失的次数，则 $W^{(T+1)} \leq \left(\frac{3}{4}\right)^R W^{(0)} = \left(\frac{3}{4}\right)^R \cdot n$。

由于存在一个专家最多给出 $M$ 次错误建议，因此 $w_i^{(T+1)} \geq \left(\frac{1}{2}\right)^M \Rightarrow W^{(T+1)} \geq \left(\frac{1}{2}\right)^M$。

综上：$\left(\frac{1}{2}\right)^M \leq \left(\frac{3}{4}\right)^R \cdot n \Rightarrow R \leq \log_{\frac{4}{3}} n + M \log_{\frac{4}{3}} 2$。

将 MW 应用于全信息设置（Hedge 策略 [Freund-Schapire’97]）

在时间 $t$：以概率 $p_a^{(t)} \triangleq \frac{w_a^{(t)}}{W^{(t)}}$ 选择动作 $a_t = a$。

更新权重：$w_a^{(t+1)} \leftarrow w_a^{(t)} \cdot \exp(\lambda \cdot r_{t,a}) \quad (\lambda \in (0,1)) \text{ 对每个 } a \in [n]$

分析

我们仍有：1) $W^{(0)} = n$，2) 对每个 $a$，$W^{(T+1)} \geq w_a^{(T+1)} = \exp(\lambda \sum_{t=1}^T r_{t,a})$。

对每个 $t$： $\begin{aligned} W^{(t+1)} &= \sum_a w_a^{(t+1)} = \sum_a w_a^{(t)} \cdot \exp(\lambda \cdot r_{t,a}) \\ &\leq \sum_a w_a^{(t)} \cdot (1 + \lambda r_{t,a} + \lambda^2 r_{t,a}^2) \quad \text{（因为 } e^x \leq 1+x+x^2 \text{ 当 } |x| \leq 1\text{）} \\ &\leq \sum_a w_a^{(t)} \cdot (1 + \lambda r_{t,a} + \lambda^2) \\ &= (1+\lambda^2)W^{(t)} + \lambda W^{(t)} \sum_a p_a^{(t)} \cdot r_{t,a} = W^{(t)} \left[ 1 + \lambda^2 + \lambda \sum_a p_a^{(t)} \cdot r_{t,a} \right] \\ &\leq W^{(t)} \cdot \exp\left( \lambda^2 + \lambda \sum_a p_a^{(t)} \cdot r_{t,a} \right) \quad \text{（因为 } 1+x \leq e^x\text{）} \end{aligned}$

综上：$W^{(T+1)} \leq W^{(0)} \cdot \exp\left( \lambda^2 T + \lambda \sum_{t=1}^T \sum_a p_a^{(t)} \cdot r_{t,a} \right)$

$\Rightarrow \sum_{t=1}^T \sum_a p_a^{(t)} \cdot r_{t,a} \geq \frac{1}{\lambda} \cdot \ln \frac{W^{(T+1)}}{W^{(0)}} - \lambda T$

结合 1) 和 2)：对每个 $a$，$\text{LHS（期望奖励）} \geq \frac{1}{\lambda} \left( \lambda \sum_{t=1}^T r_{t,a} - \ln n \right) - \lambda T = \sum_{t=1}^T r_{t,a} - \frac{1}{\lambda} \ln n - \lambda T$

因此，$R_T \leq \frac{1}{\lambda} \ln n + \lambda T \stackrel{\text{令 } \lambda = \sqrt{\frac{\ln n}{T}}}{=} O(\sqrt{T \ln n})$。

多臂老虎机设置：EXP3 算法

思路

对每个 $r_{t,a}$ 使用无偏估计，例如 $\hat{r}_{t,a} \triangleq \mathbf{1}[a_t = a] \cdot r_t / p_a^{(t)}$

可验证：$\mathbb{E} \hat{r}_{t,a} = \sum_{a’} p_{a’}^{(t)} \cdot \mathbf{1}[a’=a] \cdot r_{t,a} / p_a^{(t)} = r_{t,a}$。

EXP3 算法

使用略有不同的估计：$\hat{r}_{t,a} \triangleq 1 - \mathbf{1}[a_t = a] \cdot (1 - r_t) / p_a^{(t)}$。

验证：1) $\mathbb{E} \hat{r}_{t,a} = r_{t,a}$，2) $\hat{r}_{t,a} \leq 1$ 几乎必然成立。

更新规则：$w_a^{(t+1)} \leftarrow w_a^{(t)} \cdot \exp(\lambda \cdot \hat{r}_{t,a}) \quad (\lambda \in (0,1)) \text{ 对每个 } a \in [n]$。

分析

我们仍有：

\[\begin{cases} W^{(0)} = n \\ W^{(T+1)} \geq w_a^{(T+1)} = \exp(\lambda \cdot \sum_{t=1}^T \hat{r}_{t,a}) \text{ 对每个 } a \in [n] \end{cases}\]

对每个 $t$，有 $\begin{aligned} W^{(t+1)} &= \sum_a w_a^{(t+1)} = \sum_a w_a^{(t)} \exp(\lambda \cdot \hat{r}_{t,a}) \leq \sum_a w_a^{(t)} (1 + \lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) \quad \text{（因为 } e^x \leq 1+x+x^2 \text{ 当 } x \leq 1\text{）} \\ &= W^{(t)} \sum_a p_a^{(t)} (1 + \lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) = W^{(t)} \left[ 1 + \sum_a p_a^{(t)} (\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) \right] \\ &\leq W^{(t)} \exp\left( \sum_a p_a^{(t)} (\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) \right) \quad \text{（因为 } 1+x \leq e^x\text{）}. \end{aligned}$

因此，$\ln W^{(t+1)} - \ln W^{(t)} \leq \sum_a p_a^{(t)} (\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2)$

$\Rightarrow$ 在给定前 $(t-1)$ 个时间步的条件下， $\begin{aligned} \mathbb{E} \ln W^{(t+1)} - \ln W^{(t)} &\leq \sum_a p_a^{(t)} (\lambda \cdot \mathbb{E} \hat{r}_{t,a} + \lambda^2 \cdot \mathbb{E} \hat{r}_{t,a}^2) \\ &= \lambda \cdot \sum_a p_a^{(t)} \cdot r_{t,a} + \lambda^2 \cdot \sum_a p_a^{(t)} \mathbb{E} \hat{r}_{t,a}^2. \end{aligned} \tag{*}$

注意 $\begin{aligned} \sum_a p_a^{(t)} \mathbb{E} \hat{r}_{t,a}^2 &= \sum_a p_a^{(t)} \cdot \sum_{a'} p_{a'}^{(t)} \cdot \left[ 1 - \mathbf{1}[a'=a] (1 - r_{t,a'}) / p_a^{(t)} \right]^2 \\ &= \sum_a p_a^{(t)} \cdot \left[ (1 - p_a^{(t)}) + p_a^{(t)} \cdot \left(1 - \frac{1 - r_{t,a}}{p_a^{(t)}} \right)^2 \right] \\ &\leq 1 + \sum_a \left( p_a^{(t)} - 1 + r_{t,a} \right)^2 \leq n+1 \end{aligned}$

因此，(*) $\Rightarrow \mathbb{E} \ln W^{(t+1)} - \ln W^{(t)} \leq \lambda \cdot \sum_a p_a^{(t)} \cdot r_{t,a} + \lambda^2 \cdot (n+1)$（在给定前 $(t-1)$ 个时间步的条件下）

$\Rightarrow \mathbb{E} \ln W^{(T+1)} - \mathbb{E} \ln W^{(0)} \leq \lambda \cdot \mathbb{E} \sum_{t=1}^T r_t + \lambda^2 T \cdot (n+1)$

综上：$\mathbb{E} W^{(T+1)} - \mathbb{E} W^{(0)} \leq \lambda \cdot \mathbb{E} \sum_{t=1}^T r_t + \lambda^2 T \cdot (n+1) \Rightarrow \forall a, \; \lambda \sum_{t=1}^T \mathbb{E} r_t + \lambda^2 T (n+1) \geq \lambda \sum_{t=1}^T \mathbb{E} r_{t,a} - \ln n$

因此，$R_T \leq \lambda T (n+1) + \frac{1}{\lambda} \ln n \stackrel{\text{令 } \lambda = \sqrt{\frac{\ln n}{T(n+1)}}}{=} O(\sqrt{T n \ln n})$。

Written on March 1, 2026