David Sun

Online Learning 导论

2026-03-01T00:00:00+00:00

这篇文章介绍了在线学习与强化学习的基本框架及其在动态决策中的应用。传统机器学习采用“先学后用”的静态模式，而在线学习则强调“边学边用”，模型在与环境交互中持续更新。文章通过动态定价和定价与库存管理两个示例，揭示了在线决策的核心挑战——探索与利用的两难困境：既要通过尝试新策略来收集信息（探索），又要基于已有知识最大化即时收益（利用）。其中，库存管理等场景因当前决策影响未来状态，自然引入了强化学习的范式。文章还提及了上下文老虎机等扩展模型，并列出从基础理论到高级应用的学习大纲，为理解数据驱动的序贯决策问题提供了系统性导引。

导论

传统机器学习：“先学后用”

模型仅从历史数据中学习一次，随后执行决策而不进行更新

在线学习：“边学边用”

模型在执行决策的同时持续学习与适应

新（且关键）挑战：“数据驱动的智能决策”：既要决策数据采集策略，又要实现收益最大化——探索与开发两难困境。

示例1：动态定价

模型：$d = D(p) + \varepsilon, \qquad \mathbb{E}[\varepsilon]=0$ 其中$d$为实际需求，$p$为价格。

单笔销售收益（利润）：利润 $= d\cdot p$。预期利润：$D(p)\cdot p$。

传统机器学习方法：

给定数据集：$(p_1,d_1), (p_2,d_2),\dots,(p_n,d_n)$。
学习需求函数 $\widehat{D}(\cdot)$（例如回归）。
优化策略：$\hat p = \arg\max_p \widehat{D}(p)\cdot p$。

在线学习

对于时间段 $t=1,2,\dots,T$（其中 $T$称为决策时限）：

基于历史观测数据$(p_1,d_1),\dots$决定当前策略$p_t$；
向顾客提供价格$p_t$；
观测实际需求$d_t$并获得收益$p_t \cdot d_t$。

共同目标：

最大化 $\mathbb{E}\Big[\sum_{t=1}^T p_t d_t\Big]。$

观察：

在简单单臂老虎机场景中，各时间段的优化目标（近似）独立；时间 $t$ 的决策不影响后续时间的最优决策。
在其他场景（如库存控制）中，当前决策可能影响未来状态与收益。

示例2：定价与库存管理

需求模型：$d_t = D(p_t) + \varepsilon_t,\quad \mathbb{E}[\varepsilon_t]=0.$ 时间$t$初始库存水平：$x_t$。

时间 $t$ 的库存决策：补货至水平 $y_t$（即 $y_t \ge x_t$）。随后决定价格 $p_t$ 并产生实际需求 $d_t$。

新库存水平：$x_{t+1} = y_t - d_t.$

时间$t$的收益（典型公式之一）：$r_t = p_t d_t \;-\; k\cdot \mathbf{1}\{y_t>x_t\} \;-\; c\cdot (y_t - x_t) \;-\; h\cdot [y_t - d_t]_+ \;-\; b\cdot [d_t - y_t]_+,$ 其中

$p_t d_t$：销售收入，
$k$：固定订货成本（若下单），
$c$：单位可变订货成本，
$h$：单位库存持有成本（针对未售库存），
$b$：单位积压/短缺成本。

总体目标：

最大化 $\mathbb{E}\sum_{t=1}^T r_t$。

观察：

时刻$t$的决策（即$(y_t,p_t)$）可能影响$x_{t+1}$，进而影响未来收益与最优决策。
此即强化学习（MDP）框架。

单臂老虎机与强化学习

单臂老虎机

智能体选择动作并获取奖励，但无法观察或影响环境状态。其学习完全依赖试错反馈——常见于A/B测试或上下文信息有限的推荐系统等场景。

强化学习

智能体通过与动态环境交互学习，其动作不仅影响奖励，更会改变未来状态。这使得长期规划与策略制定成为可能——对游戏、机器人或自主导航等任务至关重要。

定价与库存示例中，状态 = 库存水平。
在一般强化学习任务中，最优策略是状态的函数：$a_t^\star = \pi^\star(s_t)$
相比之下，多臂老虎机任务中最优动作可能是恒定的（不依赖状态）。

示例3：个性化定价（上下文多臂老虎机）

模型：$d_t = D(p_t; x_t) + \varepsilon_t$，其中$x_t$为描述顾客特征的向量（如性别、年龄、职业、信用记录等）。

共同目标（上下文多臂老虎机）：

假设 $x_t\sim \mathcal{X}$（来自某个可能未知的独立同分布），最大化 $\mathbb{E}\Big[\sum_{t=1}^T p_t d_t\Big]。$

观察要点：

“无状态强化学习”：环境生成 $x_t$，其状态不受 $p_t$ 或 $x_t$ 影响（即无状态动态）。
最优策略：$a_t^\star = \pi^\star(x_t)$（策略依赖于上下文）。

大纲

主题包括（部分列表）：

Online Learning 集中不等式

2026-03-01T00:00:00+00:00

这篇文章系统性地介绍了集中不等式，这是在线学习与强化学习中量化探索阶段不确定性的核心数学工具。文章以动态定价中的“探索后承诺”策略为例，指出需要建立估计误差的置信区间，这引出了对独立随机变量和（如伯努利变量之和）偏离其期望的概率上界的研究。文章首先回顾了中心极限定理及其带误差界的贝里-埃森定理，指出其在尾部概率估计上的局限性。随后重点转向更精确的尾部（切尔诺夫）界限，通过矩生成函数方法，推导出比基于方差（切比雪夫）或更高阶矩的方法更紧的概率上界，并给出了经典的切尔诺夫不等式、霍夫丁不等式和伯恩斯坦不等式的具体形式及其比较，阐明了在不同应用场景（如变量有界、方差已知等）下如何选择最合适的集中不等式来为在线决策算法提供理论保证。

集中不等式

问题背景

双价格动态定价：$p \in {\alpha, \beta}$。$d = D(p) + \varepsilon \to \text{独立波动}$

简单策略：探索后承诺（ETC）

以 $p = \alpha$ 定价 $m$ 个周期，观察需求 $d_1, \dots, d_m$
以 $p = \beta$ 定价 $m$ 个周期，观察需求 $d_{m+1}, \dots, d_{2m}$
估计 $\widehat{D}(\alpha) = \frac{1}{m}(d_1 + \dots + d_m)$，$\widehat{D}(\beta) = \frac{1}{m}(d_{m+1} + \dots + d_{2m})$
在剩余的$(T - 2m)$个时段内，承诺采用价格$\arg\max_{p \in {\alpha, \beta}} \widehat{D}(p)$

问题

如何确定$m$？需平衡探索阶段（步骤1&2）与开发阶段（步骤4）的关系。

通常需要建立置信区间（长度）、置信水平与$m$之间的定量关系： $\operatorname{Prb}\left[ |D(\alpha) - \widehat{D}(\alpha)| \leq \tau \right] \geq 1 - \Delta$ 其中

$\tau$ 为置信区间半径，
$1- \Delta$ 为置信水平，

备注

若 $\varepsilon_t \sim \mathcal{N}(0,1)$，则 $\widehat{D}(\alpha) \sim \mathcal{N}(D(\alpha), \frac{1}{m})$。$\tau$ 与 $\Delta$ 的关系易于推导。一般情况下需借助集中不等式。

模型设定

设 $X_1, X_2, \dots, X_m$ 为独立同分布随机变量。为简化，进一步假设 $X_i \in {0,1}$。$\operatorname{Prb}[X_i=1] = q$，$\operatorname{Prb}[X_i=0] = 1-q$（伯努利随机变量）。

设 $S_m = X_1 + \dots + X_m$：需理解其性质。

$\mathbb{E}[S_m] = m \cdot q$（期望的线性性）
$\mathrm{Var}[S_m] = \sum_{i=1}^{m} \mathrm{Var}[X_i] = m \cdot q(1-q)$，故 $\mathrm{Stdev}[S_m] = \sqrt{m q (1-q)}$

考虑线性变换： $Z_m = \frac{S_m - \mathbb{E}[S_m]}{\mathrm{Stdev}[S_m]} = \frac{S_m - mq}{\sqrt{mq(1-q)}}$ 此时 $\mathbb{E}[Z_m] = 0$（无偏）且 $\mathrm{Var}[Z_m] = 1$。

回顾：中心极限定理

对于任意 $X_1, X_2, \dots$（独立同分布，取值不限于0/1），有 $Z_n \to Z = \mathcal{N}(0,1)$ 满足：$\forall u \in \mathbb{R}, \quad \operatorname{Prb}[Z_n \leq u] \xrightarrow{m \to \infty} \operatorname{Prb}[Z \leq u]$

备注

实际应用价值有限。未提供收敛速率信息。

贝里-埃森定理（带误差界限的中心极限定理）

设 $X_1, X_2, \dots, X_m$ 为相互独立的随机变量。

设 $\mathbb{E}X_i = 0$，$\mathrm{Var}[X_i] = \mathbb{E}X_i^2 = \sigma_i^2$，且 $\sum_{i=1}^{m} \sigma_i^2 = 1$（不妨设）

令 $S = X_1 + \dots + X_m$（故 $\mathbb{E}S = 0$，$\mathrm{Var}[S] = 1$）

则对于任意实数 $u$，有 $\left\| \operatorname{Prb}[S \leq u] - \operatorname{Prb}_{Z \sim \mathcal{N}(0,1)} [Z \leq u] \right\| \leq O(1) \cdot \beta$ 其中 $\beta = \sum_{i=1}^{m} \mathbb{E}\left[|X_i|^3\right]$，$O(1) \approx 0.5514$ 由 [Shevtsoua’ 2013] 给出

示例

$m$ 次抛硬币，$X_i = \begin{cases} +\frac{1}{\sqrt{m}} & \text{概率 } \frac{1}{2} \ -\frac{1}{\sqrt{m}} & \text{概率 } \frac{1}{2} \end{cases}$

计算：$\mathbb{E}X_i = 0$。$\sigma_i^2 = \frac{1}{m}$。$\sum_{i=1}^{m} \sigma_i^2 = 1$ $\checkmark$。$\beta = m \cdot \mathbb{E}\left[|X_i|^3\right] = m \cdot \frac{1}{m^{1.5}} = \frac{1}{\sqrt{m}}$

$\Rightarrow \forall u \in \mathbb{R}, \quad \left| \operatorname{Prb}[S \leq u] - \operatorname{Prb}_{\mathcal{N}(0,1)}[Z \leq u] \right| \leq \frac{0.56}{\sqrt{m}}$

注释（该界限的紧密度如何？）

注意到 $S = \frac{\#H - \#T}{\sqrt{m}}$；若 $m$ 为偶数，则 $S = 0 \Leftrightarrow \#H = \#T = \frac{m}{2}$

计算：$\operatorname{Prb}[\#H = \#T] = \operatorname{Prb}[S=0] = \operatorname{Prb}[S \leq 0] - \operatorname{Prb}[S \leq -\varepsilon]$（令 $\varepsilon \to 0^+$，设 $\varepsilon = X_m$）

\[\begin{aligned} &= \left( \operatorname{Prb}[S \leq 0] - \operatorname{Prb}[Z \leq 0] \right) - \left( \operatorname{Prb}[S \leq -\varepsilon] - \operatorname{Prb}[Z \leq -\varepsilon] \right) \\ &\leq \frac{0.56}{\sqrt{m}} + \frac{0.56}{\sqrt{m}} = \frac{1.12}{\sqrt{m}} \text{(Berry-Esseen)} \\ \end{aligned}\]

另一方面， $\frac{\binom{m}{m/2}}{2^m} = \frac{m!}{2^m \cdot (m/2)! (m/2)!} \approx \frac{\sqrt{2\pi m} \left(\frac{m}{e}\right)^m}{2^m \cdot \sqrt{2\pi \cdot m/2} \cdot \left(\frac{m/2}{e}\right)^{m}} = \sqrt{\frac{2}{\pi m}} \approx \frac{0.798}{\sqrt{m}} \text{(斯特林近似)}$

可见对于一般误差界，0.5514的因子难以显著改善。
然而在“尾部”区域，该界限可获得显著改善。

切诺夫/尾部界限

动机示例

设 $X_i = \begin{cases} +1 & \text{w.p. } \frac{1}{2} \ -1 & \text{w.p. } \frac{1}{2} \end{cases}$ 为独立同分布随机变量，$S = \sum_{i=1}^{n} X_i$

根据贝里-埃森定理：$\operatorname{Prb}[S \geq t \cdot \sqrt{n}] \approx \operatorname{Prb}_{g \sim \mathcal{N}(0,1)}[g \geq t] \pm \frac{O(1)}{\sqrt{n}}$

其中 $\operatorname{Prb}[g \geq t] = \int_{t}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt \sim \Theta\left(\frac{1}{t} \cdot e^{-\frac{t^2}{2}}\right)$ ($t > 1$)

令 $t = 10\sqrt{\ln n}$： $\operatorname{Prb}[S \geq t \cdot \sqrt{n}] \leq O\left(\frac{1}{\sqrt{\ln n}} \cdot \frac{1}{n^{50}}\right) \pm O\left(\frac{1}{\sqrt{n}}\right) \leq O\left(\frac{1}{\sqrt{n}}\right)$

目标

利用切尔诺夫不等式获得更优结果（当尾部概率较小时）。

随机变量上界：信息量越多 $\Rightarrow$ 上界越精确

马可夫不等式（仅知均值时）

设 $X \geq 0$。则 $\operatorname{Prb}[X \geq t \cdot \mathbb{E}X] \leq \frac{1}{t}$ $\forall t > 0$。

证明

$\mathbb{E}X \geq \operatorname{Prb}[X \geq \alpha] \cdot \alpha + \operatorname{Prb}[X < \alpha] \cdot 0 \Rightarrow \operatorname{Prb}[X \geq \alpha] \leq \frac{1}{\alpha} \cdot \mathbb{E}X$ ($\alpha > 0$)。取 $\alpha = t \cdot \mathbb{E}X$。

切比雪夫不等式（需知均值与方差）

设 $\mathbb{E}X = \mu$，$\mathrm{Var}[X] = \sigma^2$（$\sigma \geq 0$）。则对任意 $t > 0$，有 $\operatorname{Prb}\left[ \|X - \mu\| \geq t \cdot \sigma \right] \leq \frac{1}{t^2}.$

证明

令 $Y = (X - \mu)^2$。验证 $\mathbb{E}Y = \sigma^2$ 且 $Y \geq 0$ 几乎必然成立。

由马尔可夫不等式：$\operatorname{Prb}[Y \geq t^2 \cdot \mathbb{E}Y] \leq \frac{1}{t^2}$

\[\begin{aligned} \operatorname{Prb}[(X-\mu)^2 \geq t^2 \cdot \sigma^2] &= \operatorname{Prb}[\|X - \mu\| \geq t \cdot \sigma] \\ &\leq \frac{1}{t^2} \end{aligned}\]

回到情景（*）

$S = \sum_{i=1}^{n} X_i$，$X_i = \begin{cases} +1 & \text{w.p. } \frac{1}{2} \ -1 & \text{w.p. } \frac{1}{2} \end{cases}$ {cases}$

基于马尔可夫原理

令 $T = S + n \geq 0$。$\mathbb{E}T = \mathbb{E}S + n = n$。

则 $\operatorname{Prb}[S \geq 10\sqrt{n \ln n}] = \operatorname{Prb}[T \geq n + 10\sqrt{n \ln n}] = \operatorname{Prb}\left[T \geq \frac{n + 10\sqrt{n \ln n}}{n} \cdot \mathbb{E}T\right]$

\[\leq \frac{n}{n + 10\sqrt{n \ln n}} = 1 - \Theta\left(\sqrt{\frac{\ln n}{n}}\right) \quad \boxed{\text{甚至不趋于} 0。}\]

契比雪夫不等式

令 $\mu = \mathbb{E}S = 0$。$\sigma^2 = \mathrm{Var}[S] = n$

则 $\operatorname{Prb}[S \geq 10\sqrt{n \ln n}] \leq \operatorname{Prb}[|S - \mu| \geq 10\sqrt{n \ln n}] = \operatorname{Prb}[|S - \mu| \geq 10\sqrt{\ln n} \cdot \sigma]$

\[\leq \frac{1}{100 \ln n} \quad \boxed{\text{趋近于 } 0; \text{远大于 } \frac{1}{n^{50}}}\]

注释

切比雪夫不等式无需完全独立性，仅需“成对”独立性：

\[\begin{aligned} \mathrm{Var}[S] &= \mathrm{Var}[X_1 + \dots + X_n] = \mathbb{E}\left[(X_1 + \dots + X_n)^2\right] - \left(\mathbb{E}(X_1 + \dots + X_n)\right)^2 \\ &= \mathbb{E}\left[(X_1 + \dots + X_n)^2\right] = \mathbb{E}X_1^2 + \dots + \mathbb{E}X_n^2 + \sum_{i \neq j} \mathbb{E}X_i X_j \\ &\quad \left( = \sum_{i \neq j} (\mathbb{E}X_i)(\mathbb{E}X_j) = 0 \text{ 由“两两”独立性得} \right) \end{aligned}\]

“四阶矩方法”（适用于四元独立性）

\[\mathbb{E}|S^4| = \mathbb{E}S^4 = \mathbb{E}\left[\left(\sum_{i=1}^{n} X_i\right)^4\right]\] \[\begin {aligned} &= \underbrace{\sum_{i=1}^{n} \mathbb{E}X_i^4}_{= n \cdot 1 = n} + \underbrace{\sum_{i \neq j} \mathbb {E}X_i^2 X_j^2}_{= \binom{n}{2} \cdot \binom{4}{2} \cdot 1 = \frac{n(n-1)}{2} \cdot 6} + \underbrace{\mathbb{E}X_i X_j^3 \text{ 项}}_{= 0} + \underbrace{\mathbb {E}X_i X_j X_k^2 \text{ 项}}_{= 0} + \underbrace{\mathbb{E}X_i X_j X_k X_l \text{ 项}}_{= 0} \\ &= n + 3n(n-1) = 3n^2 - 2n \leq 3n^2 \end{aligned}\]

对$S^4$应用马尔可夫公式： $\operatorname{Prb}[\\|S\\| \geq t \cdot \sqrt{n}] = \operatorname{Prb}[S^4 \geq t^4 \cdot n^2] \leq \frac{\mathbb{E}S^4}{t^4 \cdot n^2} \leq \frac{3n^2}{t^4 \cdot n^2} = \frac{3}{t^4}$

取 $t = 10\sqrt{\ln n}$：$\operatorname{Prb}[S \geq t \cdot \sqrt{n}] \leq \frac{3}{10000 (\ln n)^2}$

继续推导

对于每个 $k$：建立 $\mathbb{E}S^{2k} \leq C_k \cdot n^k$

对$S^{2k}$应用马尔可夫公式：$\operatorname{Prb}[|S| \geq t\sqrt{n}] = \operatorname{Prb}[S^{2k} \geq t^{2k} \cdot n^k] \leq \frac{C_k}{t^{2k}}$

优化$k$。

“切尔诺夫方法”

考虑用 $e^{\lambda S}$ 替代 $S^{2k}$（$\lambda > 0$）

\[\begin{aligned} \mathbb{E}e^{\lambda S} &= \mathbb{E}e^{\lambda \cdot \sum X_i} = \mathbb{E}\prod_{i=1}^{n} e^{\lambda X_i} = \prod_{i=1}^{n} \mathbb{E}e^{\lambda X_i} \quad \text{(完全独立)} \\ \text{其中} \mathbb{E}e^{\lambda X_i} &= \frac{1}{2}e^{\lambda} + \frac{1}{2}e^{-\lambda} \\ &= \frac{1}{2}(1 + \lambda + \frac{\lambda^2}{2!} + \frac{\lambda^3}{3!} + \dots) + \frac{1}{2}(1 - \lambda + \frac{\lambda^2}{2!} - \frac{\lambda^3}{3!} + \dots) \\ &= 1 + \frac{\lambda^2}{2!} + \frac{\lambda^4}{4!} + \frac{\lambda^6}{6!} + \dots \leq e^{\frac{\lambda^2}{2}} \end{aligned}\]

因此：$\mathbb{E}e^{\lambda S} \leq e^{n \frac{\lambda^2}{2}}$

对 $e^{\lambda S} \geq 0$ 应用马尔可夫不等式：

\[\begin{aligned} \operatorname{Prb}[S \geq 10\sqrt{n \ln n}] &= \operatorname{Prb}[e^{\lambda S} \geq e^{\lambda \cdot 10\sqrt{n \ln n}}] \leq \frac{\mathbb{E}e^{\lambda S}}{e^{\lambda \cdot 10\sqrt{n \ln n}}} \\ &\leq e^{n \frac{\lambda^2}{2} - \lambda \cdot 10\sqrt{n \ln n}} \end{aligned}\]

取 $\lambda = 10\sqrt{\frac{\ln n}{n}}$：$\operatorname{Prb}[S \geq 10\sqrt{n \ln n}] \leq e^{-50 \ln n} = \frac{1}{n^{50}}$

切诺夫界

设 $X_1, X_2, \dots, X_n$ 为互不相关且取值于区间 $[0,1]$ 的随机变量（可放宽至 $[0,1]$）。令 $\mathbb{E}X_i = p_i$，$X = \sum_{i=1}^{n} X_i$，$\mu = \mathbb{E}X$。则对于任意 $\Delta > 0$，

$\operatorname{Prb}[X \geq (1+\Delta)\mu] \leq \left[\frac{e^{\Delta}}{(1+\Delta)^{1+\Delta}}\right]^{\mu}$
$\operatorname{Prb}[X \leq (1-\Delta)\mu] \leq \left[\frac{e^{-\Delta}}{(1-\Delta)^{1-\Delta}}\right]^{\mu}$

备注

更简洁地表示为：

$\Rightarrow \operatorname{Prb}[X \geq (1+\Delta)\mu] \leq \exp\left(-\frac{\Delta^2 \mu}{2+\Delta}\right)$ ($\forall \Delta > 0$)
$\Rightarrow \operatorname{Prb}[X \leq (1-\Delta)\mu] \leq \exp\left(-\frac{\Delta^2 \mu}{2}\right)$ ($\forall \Delta \in (0,1)$)

证明

仅证明1)，2)类似。

对于任意$\lambda > 0$，有$\operatorname{Prb}[X \geq (1+\Delta)\mu] = \operatorname{Prb}[e^{\lambda X} \geq e^{\lambda \cdot (1+\Delta)\mu}]$

\[\begin{aligned} &\overset{\text{(马尔可夫)}}{\leq} \frac{\mathbb{E}e^{\lambda X}}{e^{\lambda \cdot (1+\Delta)\mu}} \text{(**)} \\ \text{其中，} \mathbb{E}e^{\lambda X} &= \prod_{i=1}^{n} \mathbb{E}e^{\lambda X_i} \\ &\leq \prod_{i=1}^{n} \exp(p_i(e^{\lambda}-1)) = \exp\left(\sum_{i=1}^{n} p_i(e^{\lambda}-1)\right) \end{aligned}\]

因此，$(**)$ $\leq \exp\left( \sum_{i=1}^{n} p_i(e^{\lambda}-1) - \lambda(1+\Delta)\mu \right)$

令 $\lambda = \ln(1+\Delta) > 0$，最终得到： $\operatorname{Prb}[X \geq (1+\Delta)\mu] \leq \exp\left( \mu \cdot (1+\Delta - 1 - (1+\Delta)\ln(1+\Delta)) \right) = \exp\left( \mu \cdot (\Delta - (1+\Delta)\ln(1+\Delta)) \right)$

其他有用的集中不等式.

名称	特点/条件	备注
霍夫丁不等式	$X_i \in [a_i, b_i]$	适用于随机游走
阿祖马不等式
伯恩斯坦不等式	涉及 $X_i$ 方差
弗里德曼不等式

霍夫丁不等式

设$X_1, X_2, \dots, X_n$为独立随机变量，满足$X_i \in [a_i, b_i]$。设 $S = X_1 + \dots + X_n$。则对所有 $t > 0$ 成立： $\operatorname{Prb}[S - \mathbb{E}S \geq t] \leq \exp\left(-\frac{2t^2}{\sum_{i=1}^{n} (b_i - a_i)^2}\right).$

伯恩斯坦不等式

设 $X_1, X_2, \dots, X_n$ 为相互独立的随机变量，且 $\mathbb{E}X_i = 0$。假设对所有 $i$ 几乎必然成立 $|X_i| \leq M$。则对于任意 $t > 0$： $\operatorname{Prb}\left[\sum_{i=1}^{n} X_i \geq t\right] \leq \exp\left(-\frac{\frac{1}{2}t^2}{\sum_{i=1}^{n} \mathbb{E}X_i^2 + \frac{1}{3}Mt}\right).$

切诺夫、霍夫丁与伯恩斯坦不等式的比较：一个实例

考虑独立随机变量序列 ${X_i}_{i=1}^{n}$，满足 $\forall i$ 时 $X_i \in [0,1]$。

设 $X = \sum_{i=1}^{n} X_i$，$p_i = \mathbb{E}X_i$，$\mu = \mathbb{E}X$。考虑 $\mu \ll n$ 且 $\Delta \ll 1$。

对于 $\operatorname{Prb}[X \geq (1+\Delta)\mu]$ 能得到什么上界？

切尔诺夫不等式：$\exp\left(-\frac{\Delta^2 \mu}{2+\Delta}\right) < \exp\left(-\frac{\Delta^2 \mu}{3}\right)$。
霍夫丁公式：设 $[a_i, b_i] = [0,1]$ $\forall i$，则 $\operatorname{Prb}[X \geq (1+\Delta)\mu] = \operatorname{Prb}[X - \mathbb {E}X \geq \Delta\mu] \leq \exp\left(-\frac{2\Delta^2 \mu^2}{n}\right) = \exp\left(-2\Delta^2 \mu \cdot \frac{\mu}{n}\right).$
伯恩斯坦：令 $Y_i = X_i - p_i$（使得 $\mathbb{E}Y_i = 0$）。

我们有 $|Y_i| \leq 1$ 几乎必然成立 $\forall i$，且 $\mathbb{E}Y_i^2 \leq p_i(1-p_i)$。于是，$\operatorname{Prb}[X \geq (1+\Delta)\mu] = \operatorname{Prb}\left[\sum_{i=1}^{n} Y_i \geq \Delta\mu\right] \leq \exp\left(-\frac{\frac{1}{2}\Delta^2 \mu^2}{\sum_{i=1}^{n} p_i(1-p_i) + \frac{1}{3}\Delta\mu}\right)$ $\leq \exp\left(-\frac{\frac{1}{2}\Delta^2 \mu^2}{\mu + \frac{1}{3}\Delta\mu}\right) \leq \exp\left(-\frac{\Delta^2 \mu}{4}\right).$

观察点*

本例中，切诺夫和伯恩斯坦公式具有可比性，且均优于霍夫丁公式。
然而，霍夫丁公式可处理支撑域差异极大的随机变量。

补充说明

存在切诺夫公式优于伯恩斯坦公式的实例。（作业题）

Online Learning 多臂老虎机基础算法

2026-03-01T00:00:00+00:00

这篇文章系统介绍了多臂老虎机（Multi-Armed Bandit）的基础算法与分析框架。首先以两臂老虎机为例，介绍了简单均匀采样算法及其在识别最优臂时的概率保证（PAC）和遗憾（Regret）分析，指出其遗憾可能达到线性级别。随后引入“先探索后利用”（ETC）策略，通过平衡探索与利用将遗憾降低至 $O(T^{2/3} \log^{1/3} T)$。文章指出纯贪婪策略因缺乏主动探索可能导致线性遗憾，进而介绍 $\varepsilon$-贪婪和上置信界（UCB）算法。UCB采用乐观估计原则，给出了 $O(\sqrt{nT \log T})$ 的遗憾上界，并进一步推导出参数依赖的遗憾界 $O\left(\sum_{i=2}^{n} \Delta_i^{-1} \log T\right)$。最后，文章转向纯探索（Best-Arm Identification）目标，分别介绍了均匀采样和逐步淘汰（Successive Elimination）等算法，给出了参数无关和参数依赖的样本复杂度上界，并简要提及了对应的算法下界，展示了该领域基础算法的理论轮廓。

多臂老虎机基础算法

预热：更好臂问题

给定两个臂，臂 $i \in {1,2}$ 的奖励分布为 $D_i$（玩家未知）。

假设：$\mu_i = \mathbb{E}D_i$，$D_i$ 的支撑集为 $[0,1]$。

目标

识别更优臂：$\arg\max_{i \in {1,2}} {\mu_i}$

算法 1

设时间跨度为 $T$，每条臂操作 $T/2$ 次。令 $\hat{\mu}_i$ 为经验均值。

报告 $\arg\max_{i \in {1,2}} {\hat{\mu}_i}$。

分析

令 $\Delta = |\mu_1 - \mu_2|$ 为两臂间的“差距”。

根据霍夫丁定理： $\operatorname{Prb}[\\|\mu_1 - \hat{\mu}_1\\| < \Delta/2] \geq 1 - 2\exp\left(-\frac{\Delta^2 T}{4}\right)$ $\operatorname{Prb}[\\|\mu_2 - \hat{\mu}_2\\| < \Delta/2] \geq 1 - 2\exp\left(-\frac{\Delta^2 T}{4}\right)$

根据并集不等式： $\operatorname{Prb}[\underbrace{\max\{\\|\mu_1 - \hat{\mu}_1\\|, \\|\mu_2 - \hat{\mu}_2\\|\} < \Delta/2}_{\text{事件 } \mathcal{E}}] \geq 1 - 4\exp\left(-\frac{\Delta^2 T}{4}\right)$

当事件 $\mathcal{E}$ 发生时： $\\|(\mu_1 - \mu_2) - (\hat{\mu}_1 - \hat{\mu}_2)\\| \leq \\|\mu_1 - \hat{\mu}_1\\| + \\|\mu_2 - \hat{\mu}_2\\| < \Delta/2 + \Delta/2 = \Delta.$ $\Rightarrow \arg\max_{i \in \{1,2\}} \{\hat{\mu}_i\} = \arg\max_{i \in \{1,2\}} \{\mu_i\}$

因此，$\operatorname{Prb}[\text{算法返回正确臂}] \geq \operatorname{Prb}[\mathcal{E}] \geq 1 - 4\exp\left(-\frac{\Delta^2 T}{4}\right)$。

换言之，若要求算法成功概率 $\geq 1-\Delta$，则需满足 $T \geq \Omega(\Delta^{-2} \log \frac{1}{\Delta})$。

推论

在无间隙假设下，当概率 $\geq 1-\Delta$ 时（假设算法返回手臂 $a$），满足： $\mu_a \geq \max\{\mu_1, \mu_2\} - \varepsilon$ 只要满足 $T \geq \Omega(\varepsilon^{-2} \log \frac{1}{\Delta})$。

即$(\varepsilon, \Delta)$-可能近似正确性(PAC)保证。

悔恨最小化

目标

最大化 $\mathbb{E}\sum_{t=1}^{T} r_t$，其中 $r_t$ 表示时间 $t$ 实现的奖励。

等价地，最小化后悔值 $R_T \triangleq T \cdot \max{\mu_1, \mu_2} - \mathbb{E}\sum_{t=1}^{T} r_t$

算法1的后悔值：$\Delta \cdot \frac{T}{2}$（可能达到$\Omega(T)$量级）。

先探索后承诺（ETC）

调用算法1，设定地平线参数$T_0$
从时间$T_0+1$至$T$，承诺执行算法1返回的操作臂

分析

步骤1产生的后悔值：$O(T_0)$
算法1以概率$(1-\frac{1}{T})$返回$O\left(\sqrt{\frac{\ln T}{T_0}}\right)$最优臂
步骤2的期望后悔值： $\frac{1}{T} \cdot (T-T_0) + \left(1-\frac{1}{T}\right) \cdot O\left(\sqrt{\frac{\ln T}{T_0}}\right) \cdot (T-T_0) \leq 1 + O\left(\sqrt{\frac{\ln T}{T_0}}\right) \cdot T$
总预期后悔值：$R_T \leq O(T_0) + 1 + O\left(\sqrt{\frac{\ln T}{T_0}}\right) \cdot T$
令 $T_0 = T^{2/3} (\ln T)^{1/3}$，可得 $R_T \leq O(T^{2/3} \ln^{1/3} T)$。

注释

$O(\sqrt{\frac{\ln T}{T_0}})$最优意味着什么？这意味着高概率下，所选臂 $\mu_a \ge \mu^* - O(\sqrt{\frac{\ln T}{T_0}})$，其中 $\mu^* = \max{\mu_1, \mu_2}$ 是最佳臂（概率至少为 $1- 1/ T$）。

习题

证明：对于任意 $T$，存在强盗问题实例使得 $R_T^{\text{ETC}} \geq \Omega(T^{2/3})$。

能否利用最新信息优化决策？

贪婪策略

在每个时间点 $t$，选择臂 $\arg\max_{i \in {1,2}} {\hat{\mu}_i(t-1)}$

其中 $\hat{\mu}_i(t-1)$：基于截至时间 $t-1$ 的历史数据计算的臂 $i$ 的经验均值。

结论

存在多臂老虎机实例使得 $R_T^{\text{贪婪}} \geq \Omega(T)$。

证明

设 $D_1 = \text{Ber}(0.6)$，$D_2 = \text{Ber}(0.4)$

设事件 $\mathcal{E} = \left\{ \begin{array}{l} \text{时间1选择臂1，奖励=0} \ \text{时间2选择臂2，奖励=1} \end{array} \right\}$

则概率 $\operatorname{Prb}[\mathcal{E}] = 0.4 \times 0.4 = 0.16$。

当 $\mathcal{E}$ 发生时，贪婪算法从时间点 3 起持续选择臂 2。

$\Rightarrow$ 产生 $0.2 \cdot (T-2) = \Omega(T)$ 的后悔值。

因此，$R_T \geq \operatorname{Prb}[\mathcal{E}] \cdot \Omega(T) = \Omega(T)$。

经验教训

需要“主动探索”。

$\varepsilon$-贪婪算法

在每个时间点 $t$，执行： $\begin{cases} \text{按贪婪策略选择的概率 } 1-\varepsilon \ \text{随机选择（探索）的概率 } \varepsilon \end{cases}$。

分析

如何选择 $\varepsilon$？

$\varepsilon = 0 \Rightarrow$ 贪婪策略
常数 $\varepsilon > 0 \Rightarrow \varepsilon \cdot T = \Omega(T)$ 探索所需的预期后悔值。

上置信界限法（UCB）

核心思想

采取乐观策略（OFU：不确定性中的乐观主义）。

乐观程度 $\approx$ 探索深度。

现考虑 $n$ 个臂，不妨设 $\mu_1 \geq \mu_2 \geq \mu_3 \geq \dots \geq \mu_n$。

符号定义

$T_i(t)$：时间 $t$ 之前选择臂 $i$ 的次数。
$\hat{\mu}_i(t) = \hat{\mu}_{i, T_i(t)}$：基于前 $T_i(t)$ 次观测值计算的臂 $i$ 的经验均值。

置信界限（霍夫丁公式）

$\forall i \in {1,2,\dots,n}, t \in {1,2,3,\dots}$： $\operatorname{Prb}\left[ \mu_i \in \hat{\mu}_i(t) \pm \sqrt{\frac{\ln(2T)}{T_i(t)}} \right] \geq 1 - \frac{1}{2T^2}$

UCB算法

每条策略臂各执行一次，初始化$t=n$，$T_i(t)=1$，并据此设定$\hat{\mu}_i(t)$。
当$t < T$时循环执行
1. 选取 $I_{t+1} = \arg\max_{i \in [n]} \left\{ \hat{\mu}_i(t) + \underbrace{\mathrm{CI}_i(t)}_{\substack{\text{置信区间半径} \ = \sqrt{\frac{\ln(2T)}{T_i(t)}}}} \right\}$
2. 执行方案 $I_{t+1}$ 一次。
3. 更新 $\hat{\mu}_i(t+1), T_i(t+1)$ $\forall i$。
4. 设置 $t \leftarrow t+1$。

遗憾分析

定义（期望事件）

设 $\mathcal{E} = \left\{ \mu_i \in \hat{\mu}_i(t) \pm \mathrm{CI}_i(t) \quad \forall i \in [n], t \in [T] \right\}$

由并集界定式：$\operatorname{Prb}[\mathcal{E}] \geq 1 - \frac{1}{2T^2} \cdot T \geq 1 - \frac{1}{T}$。

结论

当事件 $\mathcal{E}$ 发生时，在每个时间点 $t+1$，选择臂 $I_{t+1}$ 的（期望）已发生后悔值不超过 $2 \cdot \mathrm{CI}{I{t+1}}(t)$。

证明

（期望）累积遗憾： $\begin{aligned} \mu_1 - \mu_{I_{t+1}} &\leq \underbrace{\hat{\mu}_1(t) + \mathrm{CI}_1(t)}_{\text{（由 } \mathcal{E}\text{）}} - \mu_{I_{t+1}} \\ &\leq \underbrace{\hat{\mu}_{I_{t+1}}(t) + \mathrm{CI}_{I_{t+1}}(t)}_{\text{（由 UCB）}} - \mu_{I_{t+1}} \\ &\leq \hat{\mu}_{I_{t+1}}(t) + \mathrm{CI}_{I_{t+1}}(t) - (\underbrace{\hat{\mu}_{I_{t+1}}(t) - \mathrm{CI}_{I_{t+1}}(t)}_{\text{（由 } \mathcal{E}\text{）}}) \\ &= 2 \cdot \mathrm{CI}_{I_{t+1}}(t). \end{aligned}$

因此，当 $\mathcal{E}$ 发生时， $\begin{aligned} R_T^{\text{UCB}} &\underset{\substack{\downarrow \\ \text{条件期望} \\ \text{事件 } \mathcal{E}}}{\leq} n + \mathbb{E} \sum_{t=n}^{T-1} 2 \cdot \mathrm{CI}_{I_{t+1}}(t) = n + \mathbb{E} \cdot 2 \sum_{i=1}^{n} \sum_{\tau=1}^{T_i(T)-1} \mathrm{CI}_{i,\tau} \\ &\leq n + \mathbb{E} \cdot 2 \sum_{i=1}^{n} \sum_{\tau=1}^{T_i(T)} \sqrt{\frac{\ln(2T)}{\tau}} \\ &\leq n + \mathbb{E} \cdot O(\sqrt{\ln(2T)}) \cdot \sum_{i=1}^{n} \sqrt{T_i(T)} \text{(柯西-施瓦茨不等式)} \\ &\leq n + \mathbb{E} \cdot O(\sqrt{\ln(2T)}) \cdot \sqrt{n \cdot \sum_{i=1}^{n} T_i(T)} \\ &= n + O(\sqrt{\ln(2T)}) \cdot \sqrt{nT} \end{aligned}$

一般而言，当 $T \geq n$（通常情况）时，有 $R_T^{\text{UCB}} \leq \mathbb{E}[\text{regret} \mid \mathcal{E}] + \operatorname{Prb}[\overline{\mathcal{E}}] \cdot T \leq O(\sqrt{nT \ln T}).$

参数依赖型后悔界

定义 $\Delta_i \triangleq \mu_1 - \mu_i$（当 $i \geq 2$）。

当事件 $\mathcal{E}$ 发生时，有 $\Delta_{I_{t+1}} = \mu_1 - \mu_{I_{t+1}} \leq 2 \cdot \mathrm{CI}_{I_{t+1}}(t) = 2 \cdot \sqrt{\frac{\ln(2T)}{T_{I_{t+1}}(t)}}$

$\Rightarrow T_{I_{t+1}} \leq \frac{4\ln(2T)}{\Delta_{I_{t+1}}^2}$（当$I_{t+1} \neq 1$时）

因此，对于所有 $i > 1$，有 $T_i(T) \leq O\left(\frac{\ln T}{\Delta_i^2}\right)$ 且 $R_T^{\text{UCB}} \leq \mathbb{E} \sum_{i=2}^ {n} T_i(T) \cdot \Delta_i \leq O(\ln T) \cdot \sum_{i=2}^{n} \Delta_i^{-1}.$

备注（下界）

即使对于伯努利臂，当 $\mu_i \in [0.1, 0.9]$ $\forall i$ 时，

对于任意策略 $\pi$，我们有：

(参数依赖)：$\liminf_{T \to \infty} \frac{R_T^{\pi}}{\ln T} \geq \Omega(1) \cdot \sum_{i=2}^{n} \Delta_i^{-1}$ ($\forall$ 实例)
(参数无关)：对于任意 $T$，存在实例使得 $R_T^{\pi} \geq \Omega(\sqrt{nT})$。

纯探索策略

目标

以概率 $\geq 1-\Delta$（通常作为输入参数 $\Delta$）识别最优臂，同时最小化样本复杂度。

参数无关纯探索算法（$\varepsilon, \Delta$ - PAC 上界）

目标

设 $j$ 为算法返回的臂，要求 $\operatorname{Prb}[\mu_1 - \mu_j \leq \varepsilon] \geq 1-\Delta$。（$\varepsilon, \Delta$ 作为输入给定）。

均匀采样算法

对每个臂执行 $\frac{4\ln(2n/\Delta)}{\varepsilon^2}$ 次操作。
返回 $\arg\max_i {\hat{\mu}_i}$

正确性

根据霍夫丁不等式：$\operatorname{Prb}[\mu_i \in \hat{\mu}_i \pm \varepsilon/2] \geq 1 - \frac{\Delta^2}{2n^2}$ $\forall i$。

由联合界：$\operatorname{Prb}[\forall i, \mu_i \in \hat{\mu}_i \pm \varepsilon/2] \geq 1 - \frac{\Delta^2}{2n^2} \cdot n \geq 1-\Delta$。

当该事件发生时： $\mu_j \geq \hat{\mu}_j - \varepsilon/2 \geq \hat{\mu}_1 - \varepsilon/2 \geq \mu_1 - \varepsilon/2 - \varepsilon/2 = \mu_1 - \varepsilon.$

样本复杂度

$O\left(\frac{n}{\varepsilon^2} \cdot \ln \frac{n}{\Delta}\right)$。

问题

为何必须对所有 $n$ 个臂进行联合界，而非仅对臂 1 和臂 j 进行？

参数依赖纯探索算法

定义

对于任意多臂老虎机实例，定义其复杂度参数 $H = H(I) \triangleq \sum_{i=2}^{n} \Delta_i^{-2}$

对UCB算法的修改

将$\mathrm{CI}_{i,t}$替换为$\sqrt{\frac{\ln(2T/\Delta)}{t}}$。

此时，以相同方式定义$\mathcal{E}$：所有置信区间均保持正确。

我们仍可得：$\operatorname{Prb}[\mathcal{E}] \geq 1 - \frac{\Delta^2}{T^2} \cdot T \geq 1-\Delta$。

同理分析：$\forall i$，$T_i(T) \leq \frac{4\ln(2T/\Delta)}{\Delta_i^2}$。

$\Rightarrow \sum_{i=2}^{n} T_i(T) \leq 4\ln(2T/\Delta) \cdot H$。

结论

当 $T > 8 \cdot \ln(2T/\Delta) \cdot H$（或 $T > c \cdot H \cdot \ln(T/\Delta)$，其中 $c>0$ 为常数）时，概率不小于 $1-\Delta$ 的情况下，最佳臂是运行 $T$ 次后被选择次数最多的臂。

问题

能否省去输入参数 $H$？

逐步淘汰法

置信区间

$\mathrm{CI}_{i,t} \triangleq \sqrt{\frac{\ln(2n^2/\Delta)}{t}}$，$\mathrm{CI}_i(t) = \mathrm{CI}_{i,T_i(t)}$

算法

初始化所有臂为“活动”状态
当存在 $\geq 2$ 个活动臂时循环执行
1. 对每个活动臂执行一次
2. 对于每个活动臂 $i$ 执行
3. 若存在活动臂 $j$ 满足 $\underbrace{\hat{\mu}_i(t) + \mathrm{CI}_i(t)}_{\text{UCB}_i(t)} < \underbrace{\hat{\mu}_j (t) - \mathrm{CI}_j(t)}_{\text{LCB}_j(t)}$ 则停用臂 $i$。
返回唯一活动臂。

分析

根据霍夫丁定理，对于任意 $i,t$，我们有 $\operatorname{Prb}[\mu_i \in \hat{\mu}_{i,t} \pm \mathrm{CI}_{i,t}] \geq 1 - \frac{\Delta^2}{2n^2 t^2}.$

因此，对于每个 $i \in [n]$，根据并界定理，我们有 $\operatorname{Prb}[\forall t, \mu_i \in \hat{\mu}_{i,t} \pm \mathrm{CI}_{i,t}] \geq 1 - \sum_{t=1}^{\infty} \frac{\Delta^2}{2n^2 t^2} = 1 - \frac{\Delta^2}{2n^2} \cdot \frac{\pi^2}{6} \geq 1 - \frac{\Delta^2}{n^2}.$

因此，再次应用并集不等式可得： $\operatorname{Prb}[\underbrace{\forall i, \forall t, \mu_i \in \hat{\mu}_{i,t} \pm \mathrm{CI}_{i,t}}_{\text{期望事件 } \mathcal{E}}] \geq 1 - \frac{\Delta^2}{n^2} \cdot n \geq 1-\Delta.$

结论

当事件 $\mathcal{E}$ 发生时，最佳臂不会被淘汰。（算法正确性）

样本复杂度

首先，需注意算法运行期间所有活跃臂的执行次数均相等。

假设事件 $\mathcal{E}$ 发生，且臂 $i$（$i \geq 2$）被执行 $T$ 次，使得 $\mathrm{CI}_{i,T} < \Delta_i/2$，

则可知 $\mathrm{CI}_i(t) < \Delta_i/2$，臂 $i$ 将被淘汰。

因此，设$N_i$为臂$i$（$i \geq 2$）的执行次数，则有 $\mathrm{CI}_{i,N_i} = \sqrt{\frac{\ln(2n \cdot N_i / \Delta)}{N_i}} \geq \Delta_i/2 \ 由此可得 N_i \leq O\left(\frac{1}{\Delta_i^2} \cdot \left(\ln \frac{n}{\Delta} + \ln \frac{1}{\Delta_i^2}\right)\right).$

因此当事件 $\mathcal{E}$ 发生时，算法的样本复杂度为：$N_1 + \sum_{i=2}^ {n} N_i \leq O(1) \cdot \sum_{i=2}^{n} \frac{1}{\Delta_i^2} \left[\ln \frac{n}{\Delta} + \ln \frac{1}{\Delta_i^2}\right] \leq O\left(H \cdot \ln \frac{n}{\Delta}\right).$

下界（参数无关纯探索）

定理

对于任意$(\varepsilon, \Delta)$-PAC算法，存在多臂老虎机实例使得采样复杂度$\geq \Omega\left(\frac{n}{\varepsilon^2} \cdot \ln \frac{1}{\Delta}\right)$。

下界（参数依赖的纯探索）

定理设 $T$ 为算法以概率 $\geq 1-\Delta$ 成功所需的操作次数。对于所有满足 $0.9 \geq \mu_1 > \mu_2 \geq \mu_3 \geq \dots \geq \mu_n \geq 0.1$ 的伯努利臂，有 $\mathbb{E}[T] \geq \Omega(1) \cdot H \ln(1/\Delta)$
定理 [Farrell’1964] 即使当 $n=2$ 时，若算法以概率 $\geq 0.9$ 返回较优臂，则 $\limsup_{\Delta_2 \to 0} \frac{\mathbb{E}[T]}{\Delta_2^{-2} \ln \ln \Delta_2^{-1}} \geq \Omega(1).$

计划

缩小/降低样本复杂度上界与下界之间的差距（主要提升上界）。

Online Learning 多臂老虎机改进的纯探索算法

2026-03-01T00:00:00+00:00

这篇文章介绍了多臂老虎机（MAB）中两种改进的纯探索（Best-Arm Identification）算法：中值消除（Median Elimination） 和 指数间隙消除（Exponential-Gap Elimination），以及一种基于迭代对数定律（LIL）的 lil’UCB 算法。

中值消除 是一种参数无关的 $(\varepsilon, \Delta)$-PAC 算法。它通过多轮迭代，每轮淘汰一半表现较差的臂（即经验均值排名后50%的臂），并增加每轮的采样次数。该算法以至少 $1-\Delta$ 的概率返回一个 $\varepsilon$-最优臂，样本复杂度为 $O\left(\frac{n}{\varepsilon^2} \log \frac{1}{\Delta}\right)$，匹配了该问题的下界。

指数间隙消除 是一种参数相关的纯探索算法，目标是精确找到最优臂（即 $\varepsilon=0$）。它同样进行多轮迭代，但每轮的精度要求 $\varepsilon_r$ 呈指数级提高（$\varepsilon_r = 2^{-r}/4$）。算法在每轮中使用中值消除作为子程序来找到一个候选臂，然后淘汰那些经验均值明显低于该候选臂的臂。其样本复杂度为 $O\left( \sum_{i=2}^{n} \Delta_i^{-2} \log\left(\frac{1}{\Delta} \log \frac{1}{\Delta_i}\right) \right)$，接近参数依赖的下界。

lil’UCB 算法将用于悔恨最小化的 UCB 思想与一个精心设计的停止条件相结合，用于纯探索。它使用基于迭代对数定律构造的更紧致的置信区间 $CI_i^{\Delta}(t)$，并规定当任何一个臂的拉动次数超过其他臂拉动次数总和的某个常数倍时停止。分析表明，该算法以高概率返回最优臂，其样本复杂度为 $O\left( \sum_{i=2}^{n} \frac{\ln(1/\Delta) + \ln\ln(1/\Delta_i)}{\Delta_i^2} \right)$，进一步改进了指数间隙消除的结果，更接近理论下界。文章的核心是通过更精细的概率工具（如霍夫丁极大不等式和LIL）和算法设计，在纯探索问题上获得近乎最优的样本复杂度。

MAB 改进的纯探索算法

中值消除

算法

（输入参数：$\varepsilon, \Delta$，用于 $(\varepsilon,\Delta)$-PAC 学习）

令 $S_0 \leftarrow [n]$，$r \leftarrow 0$
当 $|S_r| > 1$ 时，执行以下操作：
$r \leftarrow r+1$
对 $S_{r-1}$ 中的每个臂执行 $\frac{c \cdot r^4 \ln(r^2/\Delta)}{\varepsilon^2}$ 次

其中 $c$ 是一个足够大的通用常数，将在后续确定。

令 $S_r$ 为 $S_{r-1}$ 中 $\hat{\mu}_{i,r}$ 值最高的 $\frac{|S_{r-1}|}{2}$ 个臂。

其中 $\hat{\mu}_{i,r}$ 是使用第 $r$ 轮数据的经验估计值。

返回 $S_r$ 中唯一的臂。

分析

令 $i_r = \arg\max_{i \in S_r} {\mu_i}$，$\mathcal{E}_r = \left\{ \mu_{i_r} \geq \mu_{i_{r-1}} - \frac{\varepsilon}{3r^2} \right\}$

结论

$\operatorname{Prb}[\mathcal{E}_r] \geq 1$ -对于每个 $r = 1, 2, \dots, r^\ast$（$r^\ast$：最后一轮），$\frac{3\Delta}{8r^2}$ 成立。

证明

对于每个 $i \in S_{r-1}$，根据霍夫丁定理：（如果我们选择足够大的 $c$）$\operatorname{Prb}\left[ \\|\mu_i - \hat{\mu}_{i,r}\\| < \frac{\varepsilon}{6r^2} \right] \geq 1 - \frac{\Delta}{8r^2}.$

特别地，

$\operatorname{Prb}\left[ |\mu_{i_{r-1}} - \hat{\mu}_{i_{r-1},r}| < \frac{\varepsilon}{6r^2} \right] \geq 1 - \frac{\Delta}{8r^2}$。
假设 $i \in S_{r-1}$ 为“坏的”，如果 $\mu_i < \mu_{i_{r-1}} - \frac{\varepsilon}{3r^2}$，则 $\mathbb{E}\left[ \#\left\{ i \in S_{r-1} \text{ 是坏的 } \hat{\mu}_{i,r} > \mu_i + \frac{\varepsilon}{6r^2} \right\} \right] \leq \frac{\Delta}{8r^2} \cdot \#\left\{ \text{坏的 } i \in S_{r-1} \right\} \leq \frac{\Delta}{8r^2} \cdot \\|S_{r-1}\\|.$ 将这样的臂 $i$ 称为“可怕的”。

根据马尔可夫不等式：$\operatorname{Prb}\left[ \#\{\text{terrible } i\} \geq \frac{\\|S_{r-1}\\|}{2} \right] \leq \frac{\frac{\Delta}{8r^2} \cdot \\|S_{r-1}\\|}{\\|S_{r-1}\\|/2} = \frac{\Delta}{4r^2}.$

因此，根据并集界，$\operatorname{Prb}\left[ \\|\mu_{i_{r-1}} - \hat{\mu}_{i_{r-1},r}\\| < \frac{\varepsilon}{6r^2} \text{ 且 } \#\{\text{糟糕的 } i\} < \frac{\\|S_{r-1}\\|}{2} \right] \geq 1 - \frac{\Delta}{8r^2} - \frac{\Delta}{4r^2} = 1 - \frac{3\Delta}{8r^2}.$

当上述事件发生时，我们有：$\#\left\{ \text{坏 } i \in S_{r-1} \text{ 在 } \hat{\mu}_{i,r} \text{ 排序中位于 } i_{r-1} \text{ 之前 } \right\} < \frac{\\|S_{r-1}\\|}{2}$ $\Rightarrow$ 至少存在1个非坏臂保留在$S_r$中

$\Rightarrow \mu_{i_r} \geq \mu_{i_{r-1}} - \frac{\varepsilon}{3r^2}$。

定理

中值消除算法

返回一个臂 $j$，使得 $\mu_j \geq \mu_1 - \varepsilon$ 的概率为 $\geq 1-\Delta$。
样本复杂度为$O\left(\frac{n}{\varepsilon^2} \log \frac{1}{\Delta}\right)$。

证明

通过并集，我们有 $\operatorname{Prb}[\mathcal{E}_1 \wedge \mathcal{E}_2 \wedge \dots \wedge \mathcal{E}_{r^\ast}] \geq 1 - \sum_{r=1}^{r^\ast} \frac{3\Delta}{8r^2} \geq 1 - \Delta。$ 当上述事件发生时，我们有： $\mu_j = \mu_{i_{r^\ast}} \geq \mu_{i_0} - \sum_{r=1}^{r^\ast} \frac{\varepsilon}{3r^2} \geq \mu_{i_0} - \varepsilon = \mu_1 - \varepsilon。$
样本复杂度该算法的界限为 $\sum_{r=1}^{r^\ast} \frac{n}{2^{r-1}} \cdot \frac{c \cdot r^4 \ln(r^2/\Delta)}{\varepsilon^2} \leq O\left(\frac{n}{\varepsilon^2} \cdot \log \frac{1}{\Delta}\right).$

指数间隙消除算法（参数相关的纯探索算法）

算法

（输入参数：$\Delta$）

令 $S_1 \leftarrow [n]$，$r \leftarrow 1$
当 $|S_r| > 1$ DO
1. $\varepsilon_r \leftarrow 2^{-r}/4$, $\Delta_r \leftarrow \Delta/(50r^3)$
2. 对每个臂 $i \in S_r$ 进行 $t_r \leftarrow \frac{2}{\varepsilon_r^2} \ln \frac{2}{\Delta_r}$ 次操作。
3. 令 $\hat{i}_r \leftarrow \text{中值消除}(S_r, \varepsilon_r/2, \Delta_r)$
4. 令 $S_{r+1} \leftarrow S_r \setminus \left\{ i \in S_r : \hat{\mu}_{i,r} < \hat{\mu}_{\hat{i}_r,r} - \varepsilon_r \right\}$
5. 令 $r \leftarrow r+1$
返回 $S_r$ 中唯一的臂。

定理

Exp-Gap 算法以 $\geq 1-\Delta$ 的概率返回最优臂，其样本复杂度为 $O\left( \sum_{i=2}^{n} \Delta_i^{-2} \log\left(\frac{1}{\Delta} \log \frac{1}{\Delta_i}\right) \right)$。

证明思路

步骤 2c 的样本复杂度可以“计入”步骤 2b。
对于每个次优臂 $i>1$，当 $\varepsilon_r < \Delta_i$ 时，它不会持续太久。

因此，$\# \text{臂 i 的样本} \lesssim \sum_{r=1}^{\log_2 \frac{1}{\Delta_i}} \frac{1}{\varepsilon_r^2} \log \frac{1}{\Delta_r^2} \approx \Delta_i^{-2} \log\left(\frac{1}{\Delta} \log \frac{1}{\Delta_i}\right)$.

霍夫丁极大不等式 [Hoeffding’1963]

设 $X_1, X_2, \dots, X_n$ 为独立随机变量，且 $\mathbb{E}X_i = 0$, $X_i \in [a_i, b_i]$ a.s. $\forall i$。那么，对于每个 $t > 0$，$\operatorname{Prb}\left[ \forall i \in \{1,2,\dots,n\}, \sum_{j=1}^{i} X_j \leq t \right] \geq 1 - \exp\left(-\frac{2t^2}{\sum_{i=1}^{n} (b_i - a_i)^2}\right).$

引理（迭代对数界律）

设 $X_1, X_2, X_3, \dots$ 为独立随机变量，且 $\mathbb{E}X_i = 0$, $X_i \in [a_i, a_{i+1}]$ a.s. $\forall i$。对于每个 $\Delta \in (0, 1/2)$，我们有 $\operatorname{Prb}\left[ \forall t \in \{1,2,3,\dots\}, \sum_{i=1}^{t} X_i \leq \sqrt{4t \ln \frac{2.89 \ln(t+1)}{\Delta}} \right] \geq 1-\Delta.$

证明

令事件 $\mathcal{E} = \left\{ \forall k \in {1,2,\dots}, \sum_{i=1}^{2^k} X_i \leq \sqrt{2^{k-1} \ln\left(\frac{4k^2}{\Delta}\right)} \right\}$.

根据霍夫丁不等式和并集界，$\operatorname{Prb}[\mathcal{E}] \geq 1 - \sum_{k=1}^{\infty} \frac{\Delta}{4k^2} = 1 - \frac{\Delta}{4} \cdot \frac{\pi^2}{6} \geq 1 - \frac{\Delta}{2}.$

对于每个 $k = 1,2,3,\dots$，令事件 $\mathcal{F}_k = \left\{ \forall s \in {1,2,\dots,2^k-1}, \sum_{i=2^k+1}^{2^k+s} X_i \leq \sqrt{2^{k-1} \ln\left(\frac{4k^2}{\Delta}\right)} \right\}$.

根据霍夫丁极大不等式：$\operatorname{Prb}[\mathcal{F}_k] \geq 1 - \frac{\Delta}{4k^2}$.

因此，根据并集界，$\operatorname{Prb}\left[ \mathcal{E} \wedge \left( \bigwedge_{k=1}^{\infty} \mathcal{F}_k \right) \right] \geq 1 - \frac{\Delta}{2} - \sum_{k=1}^{\infty} \frac{\Delta}{4k^2} \geq 1 - \frac{\Delta}{2} - \frac{\Delta}{2} = 1 - \Delta.$

当上述事件发生时，对于每个 $t \geq 2$，我们记 $t = 2^k + s$ ($s \in [0, 2^k-1]$)，并且我们有

\[\begin{aligned} \sum_{i=1}^{t} X_i &= \sum_{i=1}^{2^k} X_i + \sum_{i=2^k+1}^{2^k+s} X_i \\ &\leq \sqrt{2^{k-1} \ln\left(\frac{4k^2}{\Delta}\right)} + \sqrt{2^{k-1} \ln\left(\frac{4k^2}{\Delta}\right)} \\ &= \sqrt{2 \cdot 2^k \ln\left(\frac{4k^2}{\Delta}\right)} \leq \sqrt{2t \cdot \ln \frac{4(\ln t / \ln 2)^2}{\Delta}} \leq \sqrt{4t \cdot \ln \frac{2.89 \ln(t+1)}{\Delta}}. \end{aligned}\]

lil’UCB（迭代对数 UCB 法则）

算法

对每个臂进行一次操作，令 $t=n$，$T_i(t)=1$ （对于所有 i）。
当 $\forall i: T_i(t) \leq 1 + 80 \sum_{j \neq i} T_j(t)$ 时执行以下操作：
选择 $I_{t+1} = \arg\max_i \left\{ \hat{\mu}_i(t) + 2 \cdot CI_i^{\Delta}(t) \right\}$

其中 $CI_i^{\Delta}(t) \triangleq CI_{i,T_i(t)}^{\Delta} \triangleq 2 \sqrt{\frac{\ln(6 \ln(T_i(t)+1)/\Delta)}{T_i(t)}}$

执行一次 $I_{t+1}$ 臂。
当 $t \leftarrow t+1$ 时，更新 $T_i(t)$，$\hat{\mu}_i(t)$ 对所有 i 成立。
返回 $\arg\max_i {T_i(t)}$

分析

对于每个臂 $i$，定义事件（参数为 $\omega > 0$）：$\mathcal{E}_i(\omega) \triangleq \left\{ \forall \tau \geq 1, \\|\hat{\mu}_{i,\tau} - \mu_i\\| \leq CI_{i,\tau}^{\omega} \right\}$

按 LIL Bound，$\operatorname{Prb}[\mathcal{E}_i(\omega)] \geq 1-\omega \quad \text{holds } \forall i, \forall \omega \in (0, 1/2)。$

像往常一样，假设 w.l.o.g. $\mu_1 > \mu_2 \geq \mu_3 \geq \dots \geq \mu_n$。

给定 $\mathcal{E}_i(\Delta)$ 的条件（其发生的概率为 $\geq 1-\Delta$），我们有（根据定义）$\hat{\mu}_{i,\tau} \geq \mu_i - CI_{i,\tau}^{\Delta} \quad \text{成立} \forall \tau.$

对于每个 $i=2,3,\dots,n$，定义 $g_i \triangleq \frac{64 \ln\left(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta\right)}{\Delta_i^2}.$

对于每个 $z=1,2,3,\dots$，我们有

\[\begin{aligned} \operatorname{Prb}[T_i > z \cdot g_i] &\leq \operatorname{Prb}\left[ \hat{\mu}_{i,zg_i} + 2 \cdot CI_{i,zg_i}^{\Delta} \geq \hat{\mu}_{1}(t) + 2 \cdot CI_{1}^{\Delta}(t) \right] \quad \text{(UCB)} \\ &\leq \operatorname{Prb}\left[ \hat{\mu}_{i,zg_i} + 2 \cdot CI_{i,zg_i}^{\Delta} \geq \mu_1 \right] \quad \text{(by $\mathcal{E}_1(\Delta)$)} \\ &= \operatorname{Prb}\left[ \hat{\mu}_{i,zg_i} - \mu_i \geq \Delta_i - 2 \cdot CI_{i,zg_i}^{\Delta} \right]。 \end{aligned}\]

当 $z \geq 1$ 时，对于较小的 $\Delta_i > 0$，我们有 $\frac{\ln\left(6 \ln(zg_i+1)/\Delta\right)}{2z \ln\left(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta\right)} \leq 1.$

因此，$\begin{aligned} \Delta_i - 2 \cdot CI_{i,zg_i}^{\Delta} &= \Delta_i - 4 \sqrt{\frac{\ln(6 \ln(zg_i+1)/\Delta)}{zg_i}} \\ &\geq \Delta_i - 4 \sqrt{\frac{2 \ln(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta)}{zg_i}} \cdot \frac{\Delta_i}{4} \sqrt{\frac{2 \ln(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta)}{g_i}} \\ &= \Delta_i - 4 \sqrt{\frac{2 \ln(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta)}{64 \ln(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta) \cdot \Delta_i^{-2}}} \cdot \Delta_i \\ &= \Delta_i - 4 \Delta_i \sqrt{\frac{2}{64}} = \Delta_i - 4 \Delta_i \cdot \frac{\sqrt{2}}{8} \geq \frac{\Delta_i}{4}. \end{aligned}$

因此，$\begin{aligned} \operatorname{Prb}[T_i > z \cdot g_i] &\leq \operatorname{Prb}\left[ \hat{\mu}_{i,zg_i} - \mu_i \geq \frac{\Delta_i}{4} \right] \\ &\leq \exp\left(-\left(\frac{\Delta_i}{4}\right)^2 \cdot 2zg_i\right) \quad \text{(Hoeffding)} \\ &= \exp\left(-\frac{\Delta_i^2}{16} \cdot 2z \cdot \frac{64 \ln(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta)}{\Delta_i^2}\right) \leq \Delta^{8z}. \end{aligned}$

断言 1

对于 $z=1,2,3,\dots$，$\operatorname{Prb}[T_i > zg_i] \leq \Delta^{8z}$（以 $\mathcal{E}_i(\Delta)$ 为条件）。

令 $\widetilde{T}_i = T_i - g_i$，则有 $\mathbb{E}\widetilde{T}_i^+ \leq \sum_{z=1}^{\infty} g_i \cdot \operatorname{Prb}[\widetilde{T}_i > (z-1)g_i] \leq \sum_{z=1}^{\infty} g_i \cdot \Delta^{8z} \leq 2g_i \cdot \Delta^8.$

因此，$\operatorname{Prb}\left[ \sum_{i=2}^{n} T_i > 2 \sum_{i=2}^{n} g_i \right] \leq \operatorname{Prb}\left[ \sum_{i=2}^{n} \widetilde{T}_i^+ > \sum_{i=2}^{n} g_i \right] \overset{\text{(Markov)}}{\leq} \frac{\mathbb{E} \sum_{i=2}^{n} \widetilde{T}_i^+}{\sum_{i=2}^{n} g_i} \leq \frac{2 \cdot \Delta^8 \cdot \sum_{i=2}^{n} g_i}{\sum_{i=2}^{n} g_i} = 2 \cdot \Delta^8 \leq \Delta.$

断言 2

以概率 $\geq 1-2\Delta$，我们有 $\sum_{i=2}^{n} T_i \leq 2 \sum_{i=2}^{n} g_i = 128 \sum_{i=2}^{n} \frac{\ln\left(6 \ln\left(\frac{1}{\Delta_i^2} + 1\right)/\Delta\right)}{\Delta_i^2}.$

停止条件（防止使用次优臂提前停止）

令 $\mathcal{H}_i \triangleq \left\{ T_i(t) < 1 + 80 \sum_{j=1}^{i-1} T_j(t), \forall i \right\}$，其中 $i=2,3,\dots,n$。

目标

证明 $\operatorname{Prb}\left[ \bigwedge_{i=2}^{n} \mathcal{H}_i \right] \geq 1 - \text{poly}(\Delta)$。

固定 $i$ 并考虑 $\mathcal{H}_i$，令 $\mathcal{G}_i \triangleq \left\{ \text{至少有 } \frac{i-1}{2} \text{ 个 } \mathcal{E}_1(\Delta), \mathcal{E}_2(\Delta), \dots, \mathcal{E}_{i-1}(\Delta) \text{ 发生} \right\}.$

事实

由于 $\mathcal{E}_1(\Delta), \mathcal{E}_2(\Delta), \dots, \mathcal{E}_{i-1}(\Delta)$ 相互独立，根据切尔诺夫界，

\[\operatorname{Prb}\left[ \underbrace{1_{\overline{\mathcal{E}_1(\Delta)}} + 1_{\overline{\mathcal{E}_2(\Delta)}} + \dots + 1_{\overline{\mathcal{E}_{i-1}(\Delta)}}}_{\text{回顾切尔诺夫界: } \operatorname{Prb}[X > (1+\gamma)\mu] < \left[\frac{e^\gamma}{(1+\gamma)^{1+\gamma}}\right]^\mu} > \frac{i-1}{2} \right] < \left[ \frac{e^{\frac{1}{2\Delta}-1}}{(\frac{1}{2\Delta})^{\frac{1}{2\Delta}}} \right]^{(i-1)\cdot \Delta}\]

这里，$\mu = \Delta(i-1)$，$(1+\gamma)\mu = \frac{i-1}{2} \iff 1+\gamma = \frac{1}{2\Delta} \iff \gamma = \frac{1}{2\Delta} - 1$

\[= \left[ \frac{e^{\frac{1}{2\Delta}} / e}{(\frac{1}{2\Delta})^{\frac{1}{2\Delta}}} \right]^\frac{i-1}{2} = \left( \frac{e / e^{2\Delta}}{\frac{1}{2\Delta}} \right)^{\frac{i-1}{2}} \leq (2\Delta e)^{\frac{i-1}{2}}.\]

因此，$\operatorname{Prb}[\mathcal{G}_i] > 1 - (2\Delta e)^{\frac{i-1}{2}}$。

事实

$\forall i \geq 2$，$\mathcal{G}_i \wedge \mathcal{E}_i(\Delta^{i-1}) \Rightarrow \mathcal{H}_i$。因此，$\operatorname{Prb}[\mathcal{H}_i] \geq \operatorname{Prb}[\mathcal{G}_i \wedge \mathcal{E}_i(\Delta^{i-1})] \geq \operatorname{Prb}[\mathcal{G}_i] - \operatorname{Prb}[\overline{\mathcal{E}_i(\Delta^{i-1})}] \geq 1 - (2\Delta e)^{\frac{i-1}{2}} - \Delta^{i-1}.$

证明

假设在某个时刻 $t$，我们有 $T_i(t) = 80 \sum_{j=1}^{i-1} T_j(t)$。

我们将证明，在时刻 $t+1$ 不会使用臂 $i$，即 $\exists j < i, \text{ s.t. } \underbrace{\hat{\mu}_j(t) + 2 CI_j^{\Delta}(t)}_{\text{LHS}} > \underbrace{\hat{\mu}_i(t) + 2 CI_i^{\Delta}(t)}_{\text{RHS}}.$

令 $\sum_{j=1}^{i-1} T_j(t) = \frac{i-1}{2} \cdot S$，则 $T_i(t) = 40(i-1) \cdot S$。

令 $\mathcal{Q} = { j < i : \mathcal{E}_j(\Delta) \text{ 发生} }$。我们有 $\mathcal{G}_i \Rightarrow |\mathcal{Q}| \geq \frac{i-1}{2}$。

注意 $\sum_{j \in \mathcal{Q}} T_j(t) \leq \sum_{j=1}^{i-1} T_j(t) = \frac{i-1}{2} S$

因此，存在 $j^\ast \in \mathcal{Q}$ 使得 $T_{j^\ast}(t) \leq S$，

即，存在 $j^\ast < i$ 使得 $\mathcal{E}_{j^\ast}(\Delta)$ 且 $T_{j^\ast}(t) \leq S$。

现在计算：

左轴（对于 $j=j^\ast$）：$\hat{\mu}_{j^\ast}(t) + 2 CI_{j^\ast}^{\Delta}(t) \geq \mu_{j^\ast} + CI_{j^\ast, T_{j^\ast}(t)}^{\Delta} \geq \mu_{j^\ast} + CI_{j^\ast, S}^{\Delta}$。

等式右侧：$\hat{\mu}_i(t) + 2 CI_i^{\Delta}(t) \leq \mu_i + CI_{i, T_i(t)}^{\Delta} + 2 CI_i^{\Delta}(t) \leq \mu_i + 3 CI_{i, T_i(t)}^{\Delta} = \mu_i + 3 CI_{i, 40(i-1)S}^{\Delta}$

注意 $\begin{aligned} 3 CI_{i, 40(i-1)S}^{\Delta} &= 6 \sqrt{\frac{\ln(6 \ln(40(i-1)S + 1)/\Delta) + (i-1)\ln(1/\Delta)}{40(i-1)S}} \\ &\leq \sqrt{\frac{9}{10}} \cdot \sqrt{\frac{\ln(6 \ln(S+1)) + 2 + \ln(1/\Delta)}{S}} < 2 \sqrt{\frac{\ln(6 \ln(S+1)/\Delta)}{S}} = CI_{j^\ast, S}^{\Delta}. \end{aligned}$

因此，左侧 > 右侧。

引理

\[\operatorname{Prb}\left[ \bigwedge_{i=2}^{n} \mathcal{H}_i \right] \geq 1 - \sum_{i=2}^{n} \left( (2e\Delta)^{\frac{i-1}{2}} + \Delta^{i-1} \right) \geq 1 - O(\sqrt{\Delta})\]

综上所述，我们有以下结论：

定理

lil’UCB 以 $\geq 1 - O(\sqrt{\Delta})$ 的概率返回最佳臂，并且其样本复杂度受限于 $O(1) \cdot \sum_{i=2}^{n} \frac{\ln(1/\Delta) + \ln\ln(1/\Delta_i + 1)}{\Delta_i^2}$。

Online Learning 多臂老虎机下界

2026-03-01T00:00:00+00:00

这篇文章系统性地建立了多臂老虎机（MAB）问题的信息论下界框架，核心结论是任何算法的样本复杂度或遗憾都受到问题实例内在区分难度的根本限制。通过构造“对抗性”实例对并利用总变差距离、KL散度和广义Hellinger距离等工具量化其数据分布的相似性，文章推导出关键下界：对于 $(\varepsilon, \Delta)$-PAC学习，所需样本至少为 $\Omega(\varepsilon^{-2} \ln \Delta^{-1})$；极小极大遗憾下界为 $\Omega(\sqrt{nT})$；而对“合理”算法，其实例依赖遗憾下界为 $\Omega(\sum_i \Delta_i^{-1} \log T)$，纯探索的样本复杂度下界为 $\Omega(\sum_i \Delta_i^{-2} \ln \Delta^{-1})$。这些下界通过散度分解引理将算法性能与臂的期望抽样次数直接关联，并借助广义距离度量扩展至非标准噪声分布（如均匀分布和三角分布），从而为MAB算法的理论极限提供了完整而严谨的刻画。

MAB 下界

热身：针对在两个臂中学习较优臂的 $(\varepsilon, \Delta)$-PAC 学习的样本复杂度下界（LB）。

定理

假设 $\mathcal{A}$ 是一个针对双臂的 $(\varepsilon, \Delta)$-PAC 算法，且 $\mathcal{A}$ 最多使用 $T$ 个样本，则 $T \geq \Omega\left(\frac{1}{\varepsilon^2} \ln \frac{1}{\Delta}\right)$。

我们首先假设 $\mathcal{A}$ 是确定性的。

观察

$\mathcal{A} \Rightarrow \exists \mathcal{A}’$ 也是 $(\varepsilon, \Delta)$-PAC，其中 $\mathcal{A}’$ 对每个臂各玩 $T$ 次，并通过函数 $f: [0,1]^T \times [0,1]^T \to {1,2}$ 做出决策。

我们关注伯努利臂，并考虑 $f: {0,1}^T \times {0,1}^T \to {1,2}$。

考虑两个实例：$I_1: \mu_1 = p, \; \mu_2 = p + \varepsilon; \quad I_2: \mu_1 = p + \varepsilon, \; \mu_2 = p.$

$\mathcal{A}’$ 是 $(\varepsilon, \Delta)$-PAC 意味着：

\[\Pr_{r \sim \mathcal{B}_p^{\otimes T} \otimes \mathcal{B}_{p+\varepsilon}^{\otimes T}} \left[ f(r) = 1 \right] \leq \Delta \tag{1}\] \[\Pr_{r \sim \mathcal{B}_{p+\varepsilon}^{\otimes T} \otimes \mathcal{B}_{p}^{\otimes T}} \left[ f(r) = 2 \right] \leq \Delta \tag{2}\]

直觉

当 $T$ 较小时 $\Rightarrow \mathcal{D}_1 \triangleq \mathcal{B}_p^{\otimes T} \otimes \mathcal{B}_{p+\varepsilon}^{\otimes T}$ 与 $\mathcal{D}_2 \triangleq \mathcal{B}_{p+\varepsilon}^{\otimes T} \otimes \mathcal{B}_{p}^{\otimes T}$ “接近”

$\Rightarrow \Pr_{\mathcal{D}_1}[f=1] \approx \Pr_{\mathcal{D}_2}[f=1] \Rightarrow$ 与 (1) 和 (2) 矛盾。

问题

如何定量衡量两个分布的“接近”程度？

信息论简短探索

定义

分布 $P$ 和 $Q$ 之间的 总变差距离 为 $\Delta(P,Q) \triangleq \frac{1}{2} \| P - Q \|_1 = \frac{1}{2} \sum_{a \in \Omega} |P(a) - Q(a)|.$

事实 1

\[\Delta(P,Q) = \max_{A \subseteq \Omega} |P(A) - Q(A)|\]

证明

令 $B = { a \in \Omega : P(a) \geq Q(a) }$。

对每个 $A \subseteq \Omega$，我们有：

\[\begin{aligned} |P(A) - Q(A)| &= \left| P(A \cap B) - Q(A \cap B) + P(A \cap \overline{B}) - Q(A \cap \overline{B}) \right| \\ &\leq \max \left\{ P(A \cap B) - Q(A \cap B), \, Q(A \cap \overline{B}) - P(A \cap \overline{B}) \right\} \\ &\leq \max \left\{ P(B) - Q(B), \, Q(\overline{B}) - P(\overline{B}) \right\} \\ &= \frac{1}{2} \left[ P(B) - Q(B) + Q(\overline{B}) - P(\overline{B}) \right] = \frac{1}{2} \sum_{a \in \Omega} |P(a) - Q(a)|. \end{aligned}\]

当 $A = B$（或 $\overline{B}$）时，不等式取等。

观察

令 $A = { f(r) = 1 }$。由事实 1，$|\mathcal{D}_1(A) - \mathcal{D}_2(A)| \leq \Delta(\mathcal{D}_1, \mathcal{D}_2)$。因此，为得出矛盾，只需证明：$\Delta(\mathcal{D}_1, \mathcal{D}_2) < 1 - 2\Delta. \tag{*}$

方法一：直接计算

$\mathcal{D}_1(r_1, \dots, r_T, r_{T+1}, \dots, r_{2T}) = p^a (1-p)^{T-a} (p+\varepsilon)^b (1-p-\varepsilon)^{T-b}$

（其中 $a = r_1 + \dots + r_T$，$b = r_{T+1} + \dots + r_{2T}$）。$\mathcal{D}_2$ 同理。

则 $\| \mathcal{D}_1 - \mathcal{D}_2 \|_1 = \sum_{a,b} \binom{T}{a} \binom{T}{b} \\|\mathcal{D}_1(a,b) - \mathcal{D}_2(a,b)\\| = \cdots$

方法二

定义

分布 $P$ 和 $Q$ 之间的 [Hellinger 距离]{.underline} 为：$H(P,Q) \triangleq \left[ \frac{1}{2} \sum_{a} \left( \sqrt{P(a)} - \sqrt{Q(a)} \right)^2 \right]^{1/2} = \frac{1}{\sqrt{2}} | \sqrt{P} - \sqrt{Q} |_2.$

事实 2

$H^2(P,Q) = \frac{1}{2} \sum_{a} \left( P(a) + Q(a) - 2\sqrt{P(a)Q(a)} \right) = 1 - \sum_{a} \sqrt{P(a)Q(a)} \in [0,1]$。

引理 3

$H^2(P,Q) \stackrel{(3)}{\leq} \Delta(P,Q) \stackrel{(4)}{\leq} \sqrt{H^2(P,Q)(2 - H^2(P,Q))} \leq \sqrt{2} \, H(P,Q)$。

证明

（(3) 的证明）：只需证 $\begin{aligned} \sum_{a} \left( \sqrt{P(a)} - \sqrt{Q(a)} \right)^2 &\leq \sum_{a} |P(a) - Q(a)|
\iff \forall a, \; P(a) + Q(a) - 2\sqrt{P(a)Q(a)} &\leq |P(a) - Q(a)|
\iff \forall a, \; 2\sqrt{P(a)Q(a)} &\geq P(a) + Q(a) - |P(a) - Q(a)|
&= 2 \cdot \min{P(a), Q(a)}. \quad \checkmark \end{aligned}$

（(4) 的证明）$\begin{aligned} \Delta^2(P,Q) &= \frac{1}{4} \left( \sum_{a} |P(a) - Q(a)| \right)^2 = \frac{1}{4} \left( \sum_{a} \left| \sqrt{P(a)} - \sqrt{Q(a)} \right| \cdot \left( \sqrt{P(a)} + \sqrt{Q(a)} \right) \right)^2
&\stackrel{(C-S)}{\leq} \frac{1}{4} \left[ \sum_{a} \left( \sqrt{P(a)} - \sqrt{Q(a)} \right)^2 \right] \cdot \left[ \sum_{a} \left( \sqrt{P(a)} + \sqrt{Q(a)} \right)^2 \right]
&= \frac{1}{2} H^2(P,Q) \cdot \sum_{a} \left( P(a) + Q(a) + 2\sqrt{P(a)Q(a)} \right)
&= H^2(P,Q) \cdot \left( 1 + \sum_{a} \sqrt{P(a)Q(a)} \right) = H^2(P,Q) \cdot \left( 2 - H^2(P,Q) \right). \end{aligned}$

定义

分布 $P$ 和 $Q$ 之间的 [Kullback-Leibler (KL) 散度/相对熵]{.underline} 为：$D_{\mathrm{KL}}(P | Q) \triangleq - \sum_{a \in \Omega} P(a) \ln \frac{Q(a)}{P(a)}.$

备注

$D_{\mathrm{KL}}(P | Q) = 0 \iff P = Q$（$D_{\mathrm{KL}}$ 始终 $\geq 0$）
KL 散度不是度量，不满足三角不等式，不对称。

与 Hellinger 距离的关系

引理 4

$H^2(P,Q) \leq 1 - \exp\left(-\tfrac{1}{2} D_{\mathrm{KL}}(P | Q)\right).$

证明

$\begin{aligned} 1 - H^2(P,Q) &= \sum_a \sqrt{P(a)Q(a)} = \exp\left( \ln \sum_a \sqrt{P(a)Q(a)} \right)
&= \exp\left( \ln \sum_a P(a) \sqrt{Q(a)/P(a)} \right)
&\geq \exp\left( \sum_a P(a) \ln \sqrt{Q(a)/P(a)} \right) \quad \text{(Jensen 不等式)}
&= \exp\left( -\tfrac{1}{2} D_{\mathrm{KL}}(P | Q) \right). \end{aligned}$

引理 5（Pinsker 不等式）

$\Delta(P,Q) \leq \sqrt{D_{\mathrm{KL}}(P | Q)}.$

证明

由引理 3：$\Delta(P,Q) \leq \sqrt{2H^2(P,Q)}$

由引理 4：$H^2(P,Q) \leq 1 - \exp\left(-\tfrac{1}{2} D_{\mathrm{KL}}(P | Q)\right) \leq \tfrac{1}{2} D_{\mathrm{KL}}(P | Q)$（利用 $e^{-x} \geq 1-x$）

因此，$\Delta(P,Q) \leq \sqrt{D_{\mathrm{KL}}(P | Q)}$。

备注

更精细的证明可得 $\Delta(P,Q) \leq \sqrt{\tfrac{1}{2} D_{\mathrm{KL}}(P | Q)}$。

引理 6（高概率 Pinsker）

$\Delta(P,Q) \leq 1 - \tfrac{1}{2} \exp\left(-D_{\mathrm{KL}}(P | Q)\right).$

证明

由引理 3：$\begin{aligned} \Delta(P,Q) &\leq \sqrt{2H^2(P,Q) - H^4(P,Q)} = \sqrt{1 - \left(1 - H^2(P,Q)\right)^2}
&\leq 1 - \tfrac{1}{2} \left(1 - H^2(P,Q)\right)^2 \quad \text{(利用 } \sqrt{1-x} \leq 1 - \tfrac{1}{2}x \; \forall x \in [0,1]\text{)}
&\leq 1 - \tfrac{1}{2} \exp\left(-D_{\mathrm{KL}}(P | Q)\right) \quad \text{(引理 4)} \end{aligned}$

KL 散度的可加性

事实 7

设 $P(x,y) = P_1(x)P_2(y)$，$Q(x,y) = Q_1(x)Q_2(y)$，则 $\begin{aligned} D_{\mathrm{KL}}(P | Q) &= - \sum_{x,y} P(x,y) \ln \frac{Q(x,y)}{P(x,y)} = - \sum_{x,y} P_1(x)P_2(y) \left[ \ln \frac{Q_1(x)}{P_1(x)} + \ln \frac{Q_2(y)}{P_2(y)} \right]
&= - \sum_{x,y} P_1(x)P_2(y) \ln \frac{Q_1(x)}{P_1(x)} - \sum_{x,y} P_1(x)P_2(y) \ln \frac{Q_2(y)}{P_2(y)}
&= D_{\mathrm{KL}}(P_1 | Q_1) + D_{\mathrm{KL}}(P_2 | Q_2). \end{aligned}$

回到 (*)

由引理 5，$\Delta(\mathcal{D}_1, \mathcal{D}_2) \leq \sqrt{D_{\mathrm{KL}}(\mathcal{D}_1 | \mathcal{D}_2)}$，

其中，由 KL 散度的可加性，$D_{\mathrm{KL}}(\mathcal{D}_1 | \mathcal{D}_2) = T \left[ D_{\mathrm{KL}}(\mathcal{B}_p | \mathcal{B}_{p+\varepsilon}) + D_{\mathrm{KL}}(\mathcal{B}_{p+\varepsilon} | \mathcal{B}_p) \right].$

由定义和直接计算：

\[\begin{aligned} D_{\mathrm{KL}}(\mathcal{B}_p \| \mathcal{B}_{p+\varepsilon}) &= p \ln \frac{p}{p+\varepsilon} + (1-p) \ln \frac{1-p}{1-p-\varepsilon} \\ &= \frac{1}{2} \cdot \frac{\varepsilon^2}{p(1-p)} \pm O(\varepsilon^3) \cdot \left( \frac{1}{p^2} + \frac{1}{(1-p)^2} \right) \quad \text{(当 } |\varepsilon| < \min\{p, 1-p\}\text{)} \end{aligned}\]

因此，我们有：

事实 8

当 $p \in [\alpha, 0.9]$ 时，

\[D_{\mathrm{KL}}(\mathcal{B}_p \| \mathcal{B}_{p+\varepsilon}) \leq O(\varepsilon^2), \; D_{\mathrm{KL}}(\mathcal{B}_{p+\varepsilon} \| \mathcal{B}_p) \leq O(\varepsilon^2).\]

最终，$\Delta(\mathcal{D}_1, \mathcal{D}_2) \leq \sqrt{T \cdot O(\varepsilon^2)} = O(\sqrt{T\varepsilon^2})$。

对于任意 $\Delta < \frac{1}{2} - \frac{1}{100}$，$\Delta(\mathcal{D}_1, \mathcal{D}_2)$ 必须 $\geq 1-2\Delta = \Omega(1)$，这意味着 $O(\sqrt{T\varepsilon^2}) \geq \Omega(1) \Rightarrow T \geq \Omega\left(\frac{1}{\varepsilon^2}\right).$

那么 $\Delta = o(1)$ 呢？

使用高概率 Pinsker： $\Delta(\mathcal{D}_1, \mathcal{D}_2) \leq 1 - \tfrac{1}{2} \exp\left(-D_{\mathrm{KL}}(\mathcal{D}_1 \| \mathcal{D}_2)\right) \leq 1 - \tfrac{1}{2} \exp\left(-O(T\varepsilon^2)\right).$

由于 $\Delta(\mathcal{D}_1, \mathcal{D}_2) \geq 1-2\Delta$，我们得到 $\exp\left(-O(T\varepsilon^2)\right) \leq 4\Delta \Rightarrow T\varepsilon^2 \geq \Omega(\ln \tfrac{1}{\Delta}) \Rightarrow T \geq \Omega\left(\tfrac{1}{\varepsilon^2} \ln \tfrac{1}{\Delta}\right)$。

一般情形：n 臂老虎机

对于任意实例 $I = (\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_n)$ 和任意（可能随机的）策略 $\pi$，在 $I$ 上运行 $\pi$ 得到 [历史]{.underline} $H = (a_1, r_1, a_2, r_2, \dots, a_H, r_H) \quad \text{（$H$ 也用于表示 $|H|$）}$。

令 $\mathcal{P}_{\pi, I}$ 为 $H$ 的分布。

引理 9（散度分解）。

设 $I = (\mathcal{D}_1, \dots, \mathcal{D}_n)$ 且 $I’ = (\mathcal{D}_1’, \dots, \mathcal{D}_n’)$。对于任意（可能随机的）策略 $\pi$，有 $D_{\mathrm{KL}}(\mathcal{P}_{\pi, I} \mid \mathcal{P}_{\pi, I’}) = \sum_{i=1}^{n} \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \left[ T_i(H) \right] \cdot D_{\mathrm{KL}}(\mathcal{D}_i \mid \mathcal{D}_i’).$ 其中，$T_i(H)$ 是历史 $H$ 中臂 $i$ 的抽样次数。

证明

注意到 $\mathcal{P}_{\pi, I}(H) = \prod_{t=1}^{H} \pi_t(a_t \mid a_1, r_1, \dots, a_{t-1}, r_{t-1}) \cdot \mathcal{D}_{a_t}(r_t).$

因此， $\ln \frac{\mathcal{P}_{\pi, I}(H)}{\mathcal{P}_{\pi, I'}(H)} = \sum_{t=1}^{H} \ln \frac{\mathcal{D}_{a_t}(r_t)}{\mathcal{D}_{a_t}'(r_t)}, \quad \text{且}$

\[D_{\mathrm{KL}}(\mathcal{P}_{\pi, I} \mid \mathcal{P}_{\pi, I'}) = \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \ln \frac{\mathcal{P}_{\pi, I}(H)}{\mathcal{P}_{\pi, I'}(H)} = \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \sum_{t=1}^{H} \ln \frac{\mathcal{D}_{a_t}(r_t)}{\mathcal{D}_{a_t}'(r_t)}.\]

这等于 $\begin{aligned} &= \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \sum_{i=1}^{n} \sum_{t=1}^{+\infty} \mathbf{1}[t \leq H \land a_t = i] \cdot \ln \frac{\mathcal{D}_{a_t}(r_t)}{\mathcal{D}_{a_t}'(r_t)} \\ &= \sum_{i=1}^{n} \sum_{t=1}^{+\infty} \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \mathbf{1}[t \leq H \land a_t = i] \cdot \underset{r_t \sim \mathcal{D}_i}{\mathbb{E}} \ln \frac{\mathcal{D}_i(r_t)}{\mathcal{D}_i'(r_t)} \\ &= \sum_{i=1}^{n} \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \left[ T_i(H) \right] \cdot D_{\mathrm{KL}}(\mathcal{D}_i \| \mathcal{D}_i'). \end{aligned}$

定理 10（极小极大遗憾下界）

对于任意 $n \geq 2$，以及任意（可能随机的）策略 $\pi$，存在一个实例 $I$，使得 $R_T^{\pi, I} \geq \Omega(\sqrt{nT})$。

证明

设 $\Delta \in (0, \tfrac{1}{8})$ 待定。令 $I = (\mathcal{B}_{\frac{1}{2}+\Delta}, \mathcal{B}_{\frac{1}{2}}, \dots, \mathcal{B}_{\frac{1}{2}})$。

选取 $z = \arg\min_{i \in {2, \dots, n}} \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \left[ T_i(H) \right]$，我们有 $\underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \left[ T_z(H) \right] \leq \frac{T}{n-1}$。

现在令 $I’ = (\mathcal{B}_{\frac{1}{2}+\Delta}, \mathcal{B}_{\frac{1}{2}}, \dots, \mathcal{B}_{\frac{1}{2}}, \mathcal{B}_{\frac{1}{2}+2\Delta}, \mathcal{B}_{\frac{1}{2}}, \dots, \mathcal{B}_{\frac{1}{2}})$（第 $z$ 个臂）。

令 $A$ 为事件 $T_z(H) \leq \frac{T}{2}$。

显然，$R_T^{\pi, I} | A \geq \frac{\Delta T}{2}$，$R_T^{\pi, I’} | \bar{A} \geq \frac{\Delta T}{2}$。

因此， $\begin{aligned} R_T^{\pi, I} + R_T^{\pi, I'} &\geq \frac{\Delta T}{2} \left( \Pr_{\pi, I}[A] + \Pr_{\pi, I'}[\bar{A}] \right) \\ &= \frac{\Delta T}{2} \left( \Pr_{\pi, I}[A] + 1 - \Pr_{\pi, I'}[A] \right) \geq \frac{\Delta T}{2} \left( 1 - \left| \Pr_{\pi, I}[A] - \Pr_{\pi, I'}[A] \right| \right) \\ &\geq \frac{\Delta T}{2} \left( 1 - \Delta(\mathcal{P}_{\pi, I}, \mathcal{P}_{\pi, I'}) \right) \geq \frac{\Delta T}{2} \left( 1 - \sqrt{D_{\mathrm{KL}}(\mathcal{P}_{\pi, I} \| \mathcal{P}_{\pi, I'})} \right). \end{aligned}$

由分解引理， $D_{\mathrm{KL}}(\mathcal{P}_{\pi, I} \mid \mathcal{P}_{\pi, I'}) = \underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \left[ T_z(H) \right] \cdot D_{\mathrm{KL}}(\mathcal{B}_{\frac{1}{2}} \mid \mathcal{B}_{\frac{1}{2}+2\Delta}) \leq \frac{T}{n-1} \cdot O(\Delta^2).$

现在令 $\Delta = c \cdot \sqrt{\frac{n-1}{T}}$ 使得 $D_{\mathrm{KL}}(\mathcal{B}_{\frac{1}{2}} \mid \mathcal{B}_{\frac{1}{2}+2\Delta}) \leq \frac{n-1}{T} \cdot \frac{1}{2}$，我们有 $D_{\mathrm{KL}}(\mathcal{P}_{\pi, I} \mid \mathcal{P}_{\pi, I’}) \leq \tfrac{1}{2} \quad \text{因此：} \quad R_T^{\pi, I} + R_T^{\pi, I’} \geq \frac{\Delta T}{2} \cdot (1 - \sqrt{\tfrac{1}{2}}) \geq \Omega(\Delta T) \geq \Omega(\sqrt{(n-1) \cdot T}).$

类似地，可证得：

定理 11（极小极大样本复杂度下界）。

对于任意 $n \geq 2$，以及任意 $(\varepsilon, \Delta)$-PAC 策略 $\pi$，存在一个实例 $I$，使得 $\underset{H \sim \mathcal{P}_{\pi, I}}{\mathbb{E}} \left[ |H| \right] \geq \Omega\left( \frac{n}{\varepsilon^2} \cdot \ln \frac{1}{\Delta} \right)$。

实例依赖的下界

考虑伯努利实例 $I = I(\mu_1, \mu_2, \dots, \mu_n) = (\mathcal{B}_{\mu_1}, \mathcal{B}_{\mu_2}, \dots, \mathcal{B}_{\mu_n})$，并令 $\mathcal{I} = \left\{ I(\mu_1, \mu_2, \dots, \mu_n) : \mu_i \in (0.1, 0.9) \; \forall i \in [n] \right\}.$

复杂度参数

令 $c^*(I) \triangleq \sum_{i: \Delta_i > 0} \frac{1}{\Delta_i}$，其中 $\Delta_i = \max_j \mu_j - \mu_i$。

回顾

UCB 对每个 $I \in \mathcal{I}$ 实现 $O(c^*(I) \cdot \log T)$ 的遗憾。

目标（实例最优性）。

对每个 $I \in \mathcal{I}$，证明每个策略 $\pi$ 的遗憾下界为 $\Omega(c^*(I) \log T)$？

不幸的是，上述目标并不完全可行... 我们只能对“合理”的策略证明遗憾下界。

定义

称策略 $\pi$ 是 [$(C,p)$-合理的]{.underline}，如果 $R_T^{\pi, I} \leq C \cdot T^p \; \forall I \in \mathcal{I}$。

示例

UCB 是 $(O(\sqrt{n \log T}), \tfrac{1}{2})$-合理的。

定理 12

对于任意 $(C,p)$-合理的策略 $\pi$ 和任意 $I \in \mathcal{I}$，我们有 $R_T^{\pi, I} \geq \Omega(1) \cdot \sum_{i: \Delta_i > 0} \frac{1}{\Delta_i} \cdot \left[ (1-p) \ln T + \ln \frac{\min{\Delta_i, 0.05}}{8C} \right]^+,$ 其中 $[x]^+ = \max{0, x}$。

证明

设 $I = I(\mu_1, \mu_2, \dots, \mu_n)$。令 $T_i = T_i(T)$ 为臂 $i$ 的总抽样次数。我们有：

引理 13

$\forall i: \Delta_i > 0$，$\underset{\pi, I}{\mathbb{E}} \left[ T_i \right] \geq \Omega\left(\frac{1}{\Delta_i^2}\right) \cdot \left[ (1-p) \ln T + \ln \frac{\min{\Delta_i, 0.05}}{8C} \right]^+$。

于是定理得证。

引理 13 的证明

考虑 $I’ = I(\mu_1, \dots, \mu_{i-1}, \mu_i + \lambda, \mu_{i+1}, \dots, \mu_n)$，其中 $\lambda = \Delta_i + \varepsilon$ 且 $\varepsilon = \min{\Delta_i, 0.05}$。

令 $A$ 为事件 ${ T_i > \frac{T}{2} }$，我们有：$R_T^{\pi, I} \geq \Pr_{\pi, I}[A] \cdot \frac{T \Delta_i}{2}, \quad R_T^{\pi, I’} \geq \Pr_{\pi, I’}[\bar{A}] \cdot \frac{T \varepsilon}{2}.$

因此， $\begin{aligned} R_T^{\pi, I} + R_T^{\pi, I'} &\geq \frac{T \varepsilon}{2} \left( \Pr_{\pi, I}[A] + \Pr_{\pi, I'}[\bar{A}] \right) = \frac{T \varepsilon}{2} \left( \Pr_{\pi, I}[A] + 1 - \Pr_{\pi, I'}[A] \right) \\ &\geq \frac{T \varepsilon}{2} \left( 1 - \left| \Pr_{\pi, I}[A] - \Pr_{\pi, I'}[A] \right| \right) \geq \frac{T \varepsilon}{2} \left( 1 - \Delta(\mathcal{P}_{\pi, I}, \mathcal{P}_{\pi, I'}) \right) \\ &\geq \frac{T \varepsilon}{4} \exp\left( -D_{\mathrm{KL}}(\mathcal{P}_{\pi, I} \mid \mathcal{P}_{\pi, I'}) \right) \quad \text{(高概率 Pinsker)} \\ &= \frac{T \varepsilon}{4} \exp\left( - \underset{\pi, I}{\mathbb{E}} \left[ T_i \right] \cdot D_{\mathrm{KL}}(\mathcal{B}_{\mu_i} \mid \mathcal{B}_{\mu_i + \lambda}) \right). \end{aligned}$

由于 $D_{\mathrm{KL}}(\mathcal{B}_{\mu_i} \mid \mathcal{B}_{\mu_i + \lambda}) \leq O(\lambda^2)$，我们有

$\underset{\pi, I}{\mathbb{E}} \left[ T_i \right] \geq \left[ \Omega(\lambda^{-2}) \cdot \ln \frac{T \varepsilon}{4(R_T^{\pi, I} + R_T^{\pi, I’})} \right]^+.$

由 $\pi$ 的 $(C,p)$-合理性，$R_T^{\pi, I} + R_T^{\pi, I’} \leq 2C \cdot T^p$。因此，

$\begin{aligned} \underset{\pi, I}{\mathbb{E}} \left[ T_i \right] &\geq \left[ \Omega(\lambda^{-2}) \cdot \ln \frac{T \varepsilon}{8C \cdot T^p} \right]^+
&\geq \left[ \Omega(\Delta_i^{-2}) \cdot \ln \frac{\varepsilon}{8C} + (1-p) \ln T \right]^+ \geq \Omega(\Delta_i^{-2}) \cdot \left[ (1-p) \ln T + \ln \frac{\varepsilon}{8C} \right]^+. \end{aligned}$

类似地，可证得：

定理 14

假设策略 $\pi$ 对每个 $I \in \mathcal{I}$（具有唯一最优臂）均以概率 $1-\Delta$ 返回最优臂。则对于每个具有唯一最优臂的 $I \in \mathcal{I}$：$\underset{\pi, I}{\mathbb{E}} \left[ \sum_{i=1}^{n} T_i \right] \geq \Omega(1) \cdot \sum_{i: \Delta_i > 0} \frac{1}{\Delta_i^2} \cdot \ln \frac{1}{\Delta}.$

一般噪声分布

问题

假设噪声分布为 $\text{Unif}[-1,1]$，则 $(\varepsilon, \Delta)$-PAC 学习两个臂中较优臂的最优样本复杂度是多少？（即两个臂的奖励分布为：$\mu_1 + \text{Unif}[-1,1], \mu_2 + \text{Unif}[-1,1]$）

回顾

对于伯努利臂或高斯噪声，我们可证明最优样本复杂度为：$\Theta(\frac{1}{\varepsilon^2} \log \frac{1}{\Delta})$，其中我们使用了关键事实：$D_{\mathrm{KL}}(\mathcal{B}_p \mid \mathcal{B}_{p+\varepsilon}) \leq O(\varepsilon^2) \quad \text{(当 } |\varepsilon| < \min{p, 1-p}\text{)} \quad \text{和}$ $D_{\mathrm{KL}}\left( \mathcal{N}(\mu, 1) \mid \mathcal{N}(\mu+\varepsilon, 1) \right) \leq O(\varepsilon^2).$

然而，$D_{\mathrm{KL}}\left( \mu + \text{Unif}[-1,1], \mu+\varepsilon + 2\text{Unif}[-1,1] \right)$ 未定义/无界。

更好的算法

以 $m = T/2$ 次抽样玩臂 1，令 $\hat{X}_1$ 为观测到的最大奖励。
以 $m = T/2$ 次抽样玩臂 2，令 $\hat{X}_2$ 为观测到的最大奖励。
返回 $\arg\max_{i \in {1,2}} { \hat{X}_i }$。

定理 15

上述算法在 $T = c \cdot \frac{1}{\varepsilon} \ln \frac{1}{\Delta}$（其中 $c > 0$ 为常数）时是 $(\varepsilon, \Delta)$-PAC 的。

证明

不妨设 $\mu_1 > \mu_2 + \varepsilon$。我们有 $\Pr\left[ \hat{X}_1 \in [\mu_1 + 1 - \varepsilon, \mu_1 + 1] \right] = 1 - \left(1 - \frac{\varepsilon}{2}\right)^m \geq 1 - \Delta \quad \text{(当 } c > 0 \text{ 足够大)}.$

当上述事件发生时，$\hat{X}_1 \geq \mu_1 + 1 - \varepsilon > \mu_2 + 1 \geq \hat{X}_2$，意味着算法返回了正确的臂。

备注

可调整该算法以实现 $O(\log^2 T)$ 的遗憾。

那么其他噪声分布呢？例如“三角噪声”

对于具有上述噪声的臂，最优样本复杂度/遗憾是多少？

广义平方 Hellinger 距离

对于分布 $P,Q$ 和 $s \geq 2$，定义 $H_s^2(P,Q) \triangleq 1 - \sum_{a \in \Omega} P(a)^{1 - \frac{1}{s}} Q(a)^{\frac{1}{s}}.$

观察

常规平方 Hellinger 距离 $H^2(P,Q) = H_s^2(P,Q)$，其中 $s=2$。

引理 16

对于任意分布 $P,Q$ 和常数 $s \geq 2$，有 $\frac{2}{s} H_2^2(P,Q) \leq H_s^2(P,Q) \leq \frac{2(s-1)}{s} H_2^2(P,Q).$

证明

我们将使用如下 Hölder 不等式的稳定性版本。

定理 17（Aldaz 2008）

设 $1 < \alpha \leq 2$ 且 $\beta = \frac{\alpha}{\alpha-1}$ 为其共轭指数。若 $f \in L^\alpha, g \in L^\beta, \|f\|_\alpha, \|g\|_\beta > 0$，则 $\|f\|_\alpha \|g\|_\beta \left( 1 - \frac{1}{\alpha} \left\| \frac{|f|^{\alpha/2}}{\|f\|_\alpha^{\alpha/2}} - \frac{|g|^{\beta/2}}{\|g\|_\beta^{\beta/2}} \right\|_2^2 \right) \leq \|fg\|_1 \leq \|f\|_\alpha \|g\|_\beta \left( 1 - \frac{1}{\beta} \left\| \frac{|f|^{\alpha/2}}{\|f\|_\alpha^{\alpha/2}} - \frac{|g|^{\beta/2}}{\|g\|_\beta^{\beta/2}} \right\|_2^2 \right).$

为证明引理 16，令 $\alpha = \frac{s}{s-1}$ 和 $\beta = s$。对任意 $a \in \Omega$，令 $f(a) = P(a)^{(s-1)/s} \quad \text{和} \quad g(a) = Q(a)^{1/s}.$

验证 $\begin{aligned} \|f\|_\alpha^\alpha &= \sum_a f(a)^\alpha = \sum_a P(a) = 1 \\ \|g\|_\beta^\beta &= \sum_a g(a)^\beta = \sum_a Q(a) = 1 \\ \|fg\|_1 &= \sum_a f(a)g(a) = \sum_a P(a)^{(s-1)/s} Q(a)^{1/s} = 1 - H_s^2(P,Q). \end{aligned}$

应用定理 17，得 $1 - \frac{s-1}{s} \|\sqrt{P} - \sqrt{Q}\|_2^2 \leq 1 - H_s^2(P,Q) \leq 1 - \frac{1}{s} \|\sqrt{P} - \sqrt{Q}\|_2^2.$

回顾 $\|\sqrt{P} - \sqrt{Q}\|_2^2 = 2H_2^2(P,Q)$，我们完成证明。

结合引理 3，我们有

推论 18

$\frac{s}{2(s-1)} H_s^2(P,Q) \leq \Delta(P,Q) \leq \sqrt{s} \cdot H_s(P,Q) \quad (s \geq 2).$

对于任意实例 $I = (\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_n)$，任意（可能随机的）策略 $\pi$，和 $t \geq 1$，令 $\mathcal{P}_{\pi, I, t}$ 为在 $I$ 上运行 $\pi$ 的 $t$-截断历史 的分布。更准确地说，样本 $H_t \sim \mathcal{P}_{\pi, I, t}$ 的生成方式如下：首先采样 $H \sim \mathcal{P}_{\pi, I}$，然后令 $H_t = (a_1, r_1, a_2, r_2, \dots, a_{\min\{t, |H|\}}, r_{\min\{t, |H|\}}).$

引理 19（分解）

设 $I = (\mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_n)$，$I’ = (\mathcal{D}’_1, \mathcal{D}’_2, \dots, \mathcal{D}’_n)$。对于任意（可能随机的）策略 $\pi$，任意 $t \geq 1$ 和任意 $s \geq 2$，有 $H_s^2(\mathcal{P}_{\pi, I, t}, \mathcal{P}_{\pi, I’, t}) \leq t^{1/s} \cdot \left( \sum_{i=1}^n \operatorname{\mathbb{E}}_{H_t \sim \mathcal{P}_{\pi, I, t}} \left[ T_i(H_t) \right] \cdot H_s^2(\mathcal{D}_i, \mathcal{D}’_i) \right)^{1 - 1/s}.$

证明

首先，观察 \(\begin{aligned} H_s^2(\mathcal{P}_{\pi, I, t}, \mathcal{P}_{\pi, I', t}) &= 1 - \operatorname{\mathbb{E}}_{H_t \sim \mathcal{P}_{\pi, I, t}} \left[ \frac{\mathcal{P}_{\pi, I', t}^{1/s}(H_t)}{\mathcal{P}_{\pi, I, t}^{1/s}(H_t)} \right] \text{（由定义）} \\ &= 1 - \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I, t-1}} \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot \mid H_{t-1})} \operatorname{\mathbb{E}}_{r_t \sim \mathcal{D}_{a_t}} \left[ \frac{ \left( \mathcal{P}_{\pi, I', t-1}(H_{t-1}) \cdot \pi(a_t \mid H_{t-1}) \cdot \mathcal{P}_{\mathcal{D}'_{a_t}}(r_t) \right)^{1/s} }{ \left( \mathcal{P}_{\pi, I, t-1}(H_{t-1}) \cdot \pi(a_t \mid H_{t-1}) \cdot \mathcal{P}_{\mathcal{D}_{a_t}}(r_t) \right)^{1/s} } \right] \\ & \quad \text{（可记 $a_t = \perp$ 若 $H_t$ 在时间 $t$ 前结束）} \\ &= 1 - \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I, t-1}} \frac{\mathcal{P}_{\pi, I', t-1}^{1/s}(H_{t-1})}{\mathcal{P}_{\pi, I, t-1}^{1/s}(H_{t-1})} \cdot \underbrace{ \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} \operatorname{\mathbb{E}}_{r_t \sim \mathcal{D}_{a_t}} \frac{\mathcal{P}_{\mathcal{D}'_{a_t}}^{1/s}(r_t)}{\mathcal{P}_{\mathcal{D}_{a_t}}^{1/s}(r_t)} }_{\text{波浪线}} \\ &= 1 - \underbrace{ \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I, t-1}} \frac{\mathcal{P}_{\pi, I', t-1}^{1/s}(H_{t-1})}{\mathcal{P}_{\pi, I, t-1}^{1/s}(H_{t-1})} }_{H_s^2(\mathcal{P}_{\pi, I, t-1}, \mathcal{P}_{\pi, I', t-1})} \\ & \quad + \underbrace{ \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I, t-1}} \frac{\mathcal{P}_{\pi, I', t-1}^{1/s}(H_{t-1})}{\mathcal{P}_{\pi, I, t-1}^{1/s}(H_{t-1})} \cdot \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) }_{\text{双下划线}} \\ & \quad \text{（因为 } \operatorname{\mathbb{E}}_{r_t \sim \mathcal{D}_{a_t}} \frac{\mathcal{P}_{\mathcal{D}'_{a_t}}^{1/s}(r_t)}{\mathcal{P}_{\mathcal{D}_{a_t}}^{1/s}(r_t)} \leq 1 - H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \text{）} \\ &= H_s^2(\mathcal{P}_{\pi, I, t-1}, \mathcal{P}_{\pi, I', t-1}) + \sum_{H_{t-1}} \mathcal{P}_{\pi, I, t-1}^{1 - 1/s}(H_{t-1}) \cdot \mathcal{P}_{\pi, I', t-1}^{1/s}(H_{t-1}) \cdot \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \\ & \quad \text{（Hölder 不等式）} \\ &\leq \left( \sum_{H_{t-1}} \mathcal{P}_{\pi, I, t-1}(H_{t-1}) \cdot \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \right)^{1 - 1/s} \\ & \quad \cdot \left( \sum_{H_{t-1}} \mathcal{P}_{\pi, I', t-1}(H_{t-1}) \cdot \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \right)^{1/s} \\ &\leq \left( \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I, t-1}} \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \right)^{1 - 1/s} \\ & \quad \cdot \left( \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I', t-1}} \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot | H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \right)^{1/s}. \end{aligned}\)

综上： $H_s^2(\mathcal{P}_{\pi, I, t}, \mathcal{P}_{\pi, I', t}) \leq H_s^2(\mathcal{P}_{\pi, I, t-1}, \mathcal{P}_{\pi, I', t-1}) + \left( \operatorname{\mathbb{E}}_{H_{t-1} \sim \mathcal{P}_{\pi, I, t-1}} \operatorname{\mathbb{E}}_{a_t \sim \pi(\cdot \mid H_{t-1})} H_s^2(\mathcal{D}_{a_t}, \mathcal{D}'_{a_t}) \right)^{1 - 1/s}.$

持续展开不等式直至 $t=1$，我们得到 $H_s^2(\mathcal{P}_{\pi, I, t}, \mathcal{P}_{\pi, I', t}) \leq \sum_{\tau=1}^{t} \left( \operatorname{\mathbb{E}}_{H_{\tau-1} \sim \mathcal{P}_{\pi, I, \tau-1}} \operatorname{\mathbb{E}}_{a_\tau \sim \pi(\cdot \mid H_{\tau-1})} H_s^2(\mathcal{D}_{a_\tau}, \mathcal{D}'_{a_\tau}) \right)^{1 - 1/s}.$

再次由 Hölder 不等式， $\begin{aligned} &\leq t^{1/s} \cdot \left( \sum_{\tau=1}^{t} \operatorname{\mathbb{E}}_{H_{\tau-1} \sim \mathcal{P}_{\pi, I, \tau-1}} \operatorname{\mathbb{E}}_{a_\tau \sim \pi(\cdot | H_{\tau-1})} H_s^2(\mathcal{D}_{a_\tau}, \mathcal{D}'_{a_\tau}) \right)^{1 - 1/s} \\ &= t^{1/s} \cdot \left( \sum_{i=1}^n \operatorname{\mathbb{E}}_{H_t \sim \mathcal{P}_{\pi, I, t}} \left[ T_i(H_t) \right] \cdot H_s^2(\mathcal{D}_i, \mathcal{D}'_i) \right)^{1 - 1/s}. \end{aligned}$

备注

更细致的推导可表明 $H_s^2(\mathcal{P}_{\pi, I, t}, \mathcal{P}_{\pi, I', t}) \leq \left( \sum_{i=1}^n \operatorname{\mathbb{E}}_{H_t \sim \mathcal{P}_{\pi, I, t}} \left[ T_i(H_t) \right] \cdot H_s^2(\mathcal{D}_i, \mathcal{D}'_i) \right)^{1 - 1/s} \cdot \left( \sum_{i=1}^n \operatorname{\mathbb{E}}_{H_t \sim \mathcal{P}_{\pi, I', t}} \left[ T_i(H_t) \right] \cdot H_s^2(\mathcal{D}_i, \mathcal{D}'_i) \right)^{1/s}.$

回到三角噪声

记 $p_\Delta(\cdot)$ 为三角噪声的概率密度函数。我们可计算 $\begin{aligned} H_s^2(\mu + \Delta\text{-噪声}, \mu + \varepsilon + \Delta\text{-噪声}) &= 1 - \int_{-\infty}^{+\infty} p_\Delta(x - \mu)^{1/2} \cdot p_\Delta(x - \mu - \varepsilon)^{1/2} dx
&\leq O(\varepsilon^2) \end{aligned}$

由引理 16，我们有 $H_s^2(\mu + \Delta\text{-噪声}, \mu + \varepsilon + \Delta\text{-噪声}) \leq 2 \cdot O(\varepsilon^2) = O(\varepsilon^2), \quad \forall s \geq 2$。

现在考虑两个 $\Delta$-噪声老虎机实例 $I$ 和 $I’$，其均值奖励为：$\begin{aligned} I: \quad &\mu_1 = 1/2, \quad \mu_2 = 1/2 + \varepsilon
I’: \quad &\mu_1 = 1/2 + \varepsilon, \quad \mu_2 = 1/2. \end{aligned}$

假设策略 $\pi$ 以概率 $\geq 0.9$ 区分这两个实例，且 $\pi$ 使用的样本数不超过 $T$（几乎必然），我们有 $\Delta(\mathcal{P}_{\pi, I, T}, \mathcal{P}_{\pi, I’, T}) \geq 1 - 2 \times 0.1 = 0.8.$

另一方面，由推论 18 和引理 19： $\begin{aligned} \Delta^2(\mathcal{P}_{\pi, I, T}, \mathcal{P}_{\pi, I', T}) &\leq s \cdot H_s^2(\mathcal{P}_{\pi, I, T}, \mathcal{P}_{\pi, I', T}) \\ &\leq s \cdot T^{1/s} \cdot \left[ T \cdot O(\varepsilon^2) \right]^{1 - 1/s} = T \cdot s \cdot O(\varepsilon^2)^{1 - 1/s}. \end{aligned}$

综上，我们得到 $0.8 \leq T \cdot s \cdot O(\varepsilon^2)^{1 - 1/s} \implies T \geq \Omega\left( \frac{1}{s \cdot \varepsilon^{2 \cdot (1 - 1/s)}} \right).$

取 $s = \ln \frac{1}{\varepsilon}$，我们得到 $T \geq \Omega\left( \frac{1}{\varepsilon^2 \cdot \ln \frac{1}{\varepsilon}} \right)$。

备注

更细致的分析可表明 $T \geq \Omega\left( \frac{1}{\varepsilon^2} \right)$。

备注

一般地，可在引理 19 中选择 $s = \ln T$，使得 $t^{1/s} \leq O(1)$，从而该引理可类似于引理 9 使用（但在应用推论 18 时，我们可能损失一个 $s^2 \ln T$ 因子）。

Online Learning 多项式逻辑模型（MNL）多臂老虎机

2026-03-01T00:00:00+00:00

本文研究了基于多项式逻辑模型（MNL）的多臂老虎机问题，其中卖家从 n 个商品中选取至多 K 个组成推荐组合，顾客根据商品的效用参数进行随机选择，目标是最大化累计期望收益。静态问题在已知模型参数时可高效求解；动态问题中效用未知，传统方法遗憾界差。文章提出一种基于周期的 UCB 算法：通过持续推荐同一组合直至顾客不购买，利用几何分布性质获得效用无偏估计，并构造置信区间。算法在每周期选取置信上界最大的组合，最终实现遗憾上界为 $\widetilde{O}(\sqrt{nT})$，匹配理论下界，显著优于直接应用 UCB 的组合数指数依赖结果。

多项式逻辑模型（MNL）多臂老虎机

商品组合选择

商品池：$[n] = {1,2,3,\dots,n}$，$r_i$：销售商品 $i$ 的收益（$r_i \in [0,1]$）

选择模型 $p_a(S)$：当向顾客提供商品组合 $S \subseteq [n]$ 时，顾客购买商品 $a \in S$ 的概率

多项式逻辑模型（MNL）选择模型

效用参数：每个商品 $i \in [n]$ 对应的 $u_i \in [0,1]$。

$p_a(S) \triangleq \frac{u_a}{1 + \sum_{i \in S} u_i}$：购买概率与效用成正比。

$1$ 表示“不购买”

组合优化目标

选择 $S \subseteq [n]$，满足 $|S| \le K$（容量约束）
以最大化 $R(S) = \sum_{a \in S} r_a \cdot p_a(S) \overset{\text{在 MNL 模型中}}{=} \frac{\sum_{i \in S} r_i u_i}{1 + \sum_{i \in S} u_i}$，即提供组合 $S$ 的期望收益

静态问题

假设我们已知模型的所有信息（所有 $r_i$ 和 $u_i$）。如何高效计算最优的 $S$？

决策版本

给定 $\beta \in [0,1]$，判断是否存在 $S \subseteq [n]$，使得 $|S| \le K$ 且 $R(S) = \frac{\sum_{i \in S} r_i u_i}{1 + \sum_{i \in S} u_i} \ge \beta$。

（若能高效解决决策版本，则可通过二分搜索在 $O(\log \frac{1}{\varepsilon})$ 次迭代内以精度 $\varepsilon$ 求得最优收益 $\beta^\ast$。）

分析

注意：$R(S) \ge \beta \iff \sum_{i \in S} r_i u_i \ge \beta + \sum_{i \in S} \beta \cdot u_i \iff \sum_{i \in S} (r_i - \beta) \cdot u_i \ge \beta$

因此，$\exists S \subseteq [n], |S| \le K, R(S) \ge \beta \iff \max_{S \subseteq [n], |S| \le K} \sum_{i \in S} (r_i - \beta) \cdot u_i \ge \beta$。

为最大化左侧，我们按 $(r_i - \beta) \cdot u_i$ 的值选取前 $K$ 个商品（仅当其值 $\ge 0$ 时）。

引理

我们可以在时间 $O(n \log n \cdot \log \frac{1}{\varepsilon})$ 内找到一个组合 $S$：$|S| \le K$，使得 $R(S) \ge R(S^\ast) - \varepsilon$（其中 $S^\ast$ 为最优组合）。

注记

静态优化问题也存在强多项式时间算法，即时间复杂度为 $\text{poly}(n)$：不依赖于精度参数 $\varepsilon$，甚至不以对数形式依赖。

动态问题

效用参数（$u_i$）对卖家未知。给定时间长度 $T$，卖家依次进行 $T$ 次商品组合推荐 $S_1, S_2, S_3, \dots, S_T$（可基于先前可观察的顾客选择进行自适应），以最小化 $\text{Reg}T = \sum{t=1}^{T} \left( R(S^\ast) - \mathbb{E} R(S_t) \right)$。

简单方法

将每个可能的组合 $S \in \binom{[n]}{\le K}$ 视为一个臂，其平均收益为 $R(S) \in [0,1]$，直接应用 UCB 算法，得到 $\text{Reg}_T \le O(1) \cdot \sqrt{\binom{n}{\le K} \cdot T \log T}$：对 $n$ 和 $K$ 的依赖较差。

目标

设计一个算法，使得 $\text{Reg}_T \le \widetilde{O}(\sqrt{nT})$（匹配 $\Omega(\sqrt{nT})$ 的下界）。

问题

假设我们已进行了 $t$ 次推荐：$S_1, S_2, S_3, \dots, S_t$，并观察到顾客选择。如何估计效用参数？

“通用解法”：最大似然估计（MLE）。问题：无闭式解，分析困难。

基于周期的推荐

当我们选择一个组合 $S$ 时，不是只推荐一次，而是持续推荐“一个周期”。更精确地说，在一个周期内，持续提供 $S$，直到顾客不购买（或达到时间上限 $T$）。

分析

在第 $\ell$ 个周期中，推荐组合 $S_\ell$。对每个 $i \in S_\ell$，令 $T_{\ell,i} =$ 顾客购买商品 $i$ 的次数。令 $E_\ell$ 为第 $\ell$ 个周期的长度。

当 $\ell$ 不是最后一个周期时，对每个 $i \in S_\ell$：$\Pr[T_{\ell,i} = 0] = \frac{1}{1 + \sum_{j \in S_\ell} u_j} + \frac{(\sum_{j \in S_\ell} u_j) - u_i}{1 + \sum_{j \in S_\ell} u_j} \cdot \Pr[T_{\ell,i} = 0]$ $\Rightarrow \Pr[T_{\ell,i} = 0] = \frac{1}{1 + u_i}$

对每个 $\alpha = 1,2,3,\dots$，$\Pr[T_{\ell,i} = \alpha] = \frac{u_i}{1 + \sum_{j \in S_\ell} u_j} \cdot \Pr[T_{\ell,i} = \alpha - 1] + \frac{(\sum_{j \in S_\ell} u_j) - u_i}{1 + \sum_{j \in S_\ell} u_j} \cdot \Pr[T_{\ell,i} = \alpha]$ $\Rightarrow \Pr[T_{\ell,i} = \alpha] = \frac{u_i}{1 + u_i} \Pr[T_{\ell,i} = \alpha - 1] = \frac{u_i^\alpha}{(1 + u_i)^{\alpha + 1}}$。

因此，我们有

断言

$T_{\ell,i} \sim \text{Geometric}\left(\frac{1}{1+u_i}\right)$（失败模型）

更重要的是，$\mathbb{E}[T_{\ell,i}] = u_i$：$u_i$ 的无偏估计量。

经过 $\ell$ 个周期后，令 $N_{\ell,i} = \#\{S_{\ell’} \ni i : \ell’ \in \{1,2,\dots,\ell\}\}$，$\widehat{u}_{\ell,i} = \frac{\sum_{\ell’ : S_{\ell’} \ni i} T_{\ell’,i}}{N_{\ell,i}}$

置信区间：独立同分布几何随机变量之和的集中性

引理

设 $X_1, X_2, \dots, X_n \overset{\text{i.i.d.}}{\sim} \text{Geometric}(p)$，$X = \sum_{i=1}^{n} X_i$，$\mu = \frac{1-p}{p} = \mathbb{E}X_i$。定义 $H(\lambda) \triangleq \mu \lambda \cdot \ln \lambda - (1 + \mu \lambda) \ln \frac{1 + \mu \lambda}{1 + \mu}$，则

$\forall \lambda \ge 1$，$\Pr[X \ge \lambda \cdot n \mu] \le \exp(-n \cdot H(\lambda))$。
$\forall \lambda \in [0,1]$，$\Pr[X \le \lambda \cdot n \mu] \le \exp(-n \cdot H(\lambda))$。

便利形式

对于 $\mu \in [0,1]$，

$\forall \Delta \in [0,1]$，$\Pr[X \ge n \mu \cdot (1+\Delta)] \le \exp\left(-\frac{n \mu \Delta^2}{8}\right)$，$\Pr[X \le n \mu \cdot (1-\Delta)] \le \exp\left(-\frac{n \mu \Delta^2}{8}\right)$。
$\forall \Delta > 1$，$\Pr[X \ge n \mu \cdot (1+\Delta)] \le \exp\left(-\frac{n \mu \Delta}{8}\right)$。

因此，$\begin{cases} \Pr\left[\left|\frac{X}{n} - \mu\right| \ge \sqrt{\frac{16 \mu \cdot \ln \Delta^{-1}}{n}}\right] \le 2\Delta^2 & \text{（当 } \sqrt{\frac{16 \mu \ln \Delta^{-1}}{n}} \le \mu\text{）}
\Pr\left[\frac{X}{n} - \mu \ge \frac{16 \ln \Delta^{-1}}{n}\right] \le \Delta^2 & \text{（否则）} \end{cases}$

断言

在固定 $i$ 和固定 $N_{\ell,i}$ 的条件下，以概率 $1 - O(\frac{1}{(Tn)^2})$，我们有 $\begin{cases} \widehat{u}_{\ell,i} \le u_i + \sqrt{\frac{16 u_i \ln(Tn)}{N_{\ell,i}}} + \frac{16 \ln(Tn)}{N_{\ell,i}} & (\ast\ast) \\ \widehat{u}_{\ell,i} \ge \max\left\{ u_i - \sqrt{\frac{16 u_i \ln(Tn)}{N_{\ell,i}}}, 0 \right\} \end{cases}$

\[(\ast\ast) \Rightarrow |\widehat{u}_{\ell,i} - u_i| \le \sqrt{\frac{32 \widehat{u}_{\ell,i} \ln(Tn)}{N_{\ell,i}}} + \frac{80 \ln(Tn)}{N_{\ell,i}} \quad (\ast)\]

对所有可能的 $i$ 和 $N_{\ell,i}$ 应用联合界，我们有 $(\ast)$ 和 $(\ast\ast)$ 在所有 $\ell$ 和 $i$ 上以概率 $\ge 1 - \frac{1}{T}$ 一致成立。

UCB 算法

$\ell \leftarrow 0$
WHILE 时间上限 $T$ 未达到 DO
1. 对每个 $i$，设置 $\overline{u}{\ell,i} = \min{1, \widehat{u}{\ell,i} + CI_{\ell,i}}$。
2. 选择 $S_{\ell+1} = \underset{S \subseteq [n], |S| \le K}{\arg\max} \left\{ \frac{\sum_{i \in S} \overline{u}_{\ell,i} r_i}{1 + \sum_{i \in S} \overline{u}_{\ell,i}} \right\}$（多项式时间可解）
3. $\ell \leftarrow \ell + 1$，将 $S_\ell$ 推荐一个周期（达到时间上限 $T$ 时终止）

分析

假设 $(\ast)$ 和 $(\ast\ast)$ 一致成立。令 $\overline{R}_\ell(S) = \frac{(\sum_{i \in S} \overline{u}_{\ell,i} \cdot r_i)}{(1 + \sum_{i \in S} \overline{u}_{\ell,i})}$。

断言 1

$\overline{R}_\ell(S_{\ell+1}) \ge R(S^\ast)$

证明

设 $R(S^\ast) = \beta$，如前所述：$\sum_{i \in S^\ast} (r_i - \beta) \cdot u_i \ge \beta$（实际上等号成立）。

事实上，对所有 $i \in S^\ast$，有 $r_i - \beta \ge 0$（否则可从 $S^\ast$ 中剔除 $i$ 得到更优组合）。因此，$\overline{R}_\ell(S_{\ell+1}) \ge \overline{R}_\ell(S^\ast) \ge \beta = R(S^\ast)$，因为 $\sum_{i \in S^\ast} (r_i - \beta) \overline{u}_{\ell,i} \ge \sum_{i \in S^\ast} (r_i - \beta) u_i \ge \beta$。

为便于分析，假设我们运行算法时不设时间上限，则有：

断言 2

对每个周期 $\ell$，$(\mathbb{E} E_\ell) \cdot R(S_\ell) \ge (\mathbb{E} E_\ell) \cdot \overline{R}_{\ell-1}(S_\ell) - 2 \sum_{i \in S_\ell} CI_{\ell-1,i}$。
（以头 $(\ell-1)$ 个周期为条件）第 $\ell$ 个周期的期望收益。

证明

$\begin{aligned} (\mathbb{E} E_\ell) \cdot R(S_\ell) &= \left( \sum_{i \in S_\ell} u_i + 1 \right) \cdot \frac{\sum_{i \in S_\ell} u_i r_i}{1 + \sum_{i \in S_\ell} u_i} = \sum_{i \in S_\ell} u_i r_i
&\ge \sum_{i \in S_\ell} \left( \overline{u}_{\ell-1,i} - 2 CI_{\ell-1,i} \right) r_i \ge \sum_{i \in S_\ell} \overline{u}_{\ell-1,i} \cdot r_i - 2 \sum_{i \in S_\ell} CI_{\ell-1,i} \end{aligned}$

另一方面，$\overline{R}_{\ell-1}(S_\ell) \cdot (\mathbb{E} E_\ell) = \frac{\sum_{i \in S_\ell} \overline{u}_{\ell-1,i} \cdot r_i}{1 + \sum_{i \in S_\ell} \overline{u}_{\ell-1,i}} \cdot \left(1 + \sum_{i \in S_\ell} u_i\right) \le \sum_{i \in S_\ell} \overline{u}_{\ell-1,i} \cdot r_i$。

引理

以头 $(\ell-1)$ 个周期为条件，第 $\ell$ 个周期的期望遗憾为 $\begin{aligned} (\mathbb{E} E_\ell) \left( R(S^\ast) - R(S_\ell) \right) &\le (\mathbb{E} E_\ell) \left( \overline{R}_{\ell-1}(S_\ell) - R(S_\ell) \right) \quad \text{（由断言 1）} \\ &\le 2 \sum_{i \in S_\ell} CI_{\ell-1,i} \quad \text{（由断言 2）} \\ &= O(1) \cdot \sum_{i \in S_\ell} \left( \sqrt{\frac{\widehat{u}_{\ell-1,i} \ln(Tn)}{N_{\ell-1,i}}} + \frac{\ln(Tn)}{N_{\ell-1,i}} \right) \\ &\le O(1) \cdot \sum_{i \in S_\ell} \left( \sqrt{\frac{u_i \ln(Tn)}{N_{\ell-1,i}}} + \frac{\ln(Tn)}{N_{\ell-1,i}} \right) \quad \text{（由 $(\ast\ast)$）} \end{aligned}$

令 $\ell^\ast$ 为包含时间 $T$ 的周期，前 $T$ 个时间步的期望遗憾为： \(\begin{aligned} &\le O(1) \mathbb{E} \sum_{\ell=1}^{\ell^\ast-1} \sum_{i \in S_\ell} \left( \sqrt{\frac{u_i \ln(Tn)}{N_{\ell-1,i}}} + \frac{\ln(Tn)}{N_{\ell-1,i}} \right) + \mathbb{E} E_{\ell^\ast} \\ &\quad \underbrace{\downarrow}_{L \to \le n} \\ &\le \mathbb{E} \sum_{i \in [n]} \sum_{\ell \in N_i} \left( \sqrt{\frac{u_i \ln(Tn)}{N_{\ell-1,i}}} + \frac{\ln(Tn)}{N_{\ell-1,i}} \right) \\ &\quad \underbrace{\downarrow}_{\text{在 } \ell^\ast \text{ 之前推荐 } i \text{ 的周期集合}} \\ &\le O(1) \cdot \mathbb{E} \sum_{i \in [n]} \left( \sqrt{u_i \ln(Tn) \cdot |N_i|} + \ln(Tn) \cdot \ln(|N_i|) \right) \\ &\le O(1) \left( \mathbb{E} \sum_{i \in [n]} \sqrt{u_i \ln(Tn) \cdot |N_i|} + n \ln(Tn) \cdot \ln T \right) \\ &\quad \underbrace{\downarrow}_{\le \sqrt{\ln(Tn)} \cdot \mathbb{E} \sqrt{n} \cdot \sqrt{\sum_{i \in [n]} u_i |N_i|}} \\ &\le \sqrt{n \ln(Tn)} \cdot \sqrt{\mathbb{E} \sum_{i \in [n]} u_i |N_i|} \le \sqrt{n \ln(Tn)} \cdot \sqrt{\mathbb{E} \sum_{\ell=1}^{\ell^\ast-1} E_\ell} \le \sqrt{n T \ln(Tn)} \end{aligned}\)

综上，我们有：

定理

MNL-UCB 的遗憾至多为 $O(\sqrt{nT \ln(nT)} + n \ln(nT) \ln T)$。

Online Learning 对抗性多臂老虎机

2026-03-01T00:00:00+00:00

本文研究了对抗性多臂老虎机问题，其中对手在每个时间步自适应地选择隐藏的奖励向量，玩家选择一个动作并获得相应奖励，目标是最小化相对于最佳固定动作的累积奖励损失（即遗憾）。在仅能观测所选动作奖励的经典老虎机设置中，存在下界 Ω(√nT)；而在能观测全部奖励的全信息设置中，遗憾可降至 O(√T log n)。文章的核心是提出并分析 EXP3 算法：该算法通过维护动作权重、构造奖励的无偏估计量来应对部分观测信息，并采用指数加权更新策略。分析表明，EXP3 算法在多臂老虎机设置中实现了 $O(T log n)$ 的遗憾上界，该结果通过乘法权重框架的分析技术得以证明，为对抗性环境下的在线学习提供了经典解决方案。

对抗性多臂老虎机

设置

$n$ 个动作，时间范围 $T$

FOR $t=1,2,3,\cdots,T$ DO

对手选择奖励向量 $(r_{t,1}, r_{t,2}, \dots, r_{t,n}) \in [0,1]^n$。（对玩家隐藏）
玩家选择一个动作 $a_t$，执行 $a_t$。
玩家观测并获得奖励 $r_t = r_{t,a_t}$（多臂老虎机设置）
或
玩家观测完整的奖励向量并获得 $r_t = r_{t,a_t}$（全信息设置）

损失

\[R_T \triangleq \mathbb{E}\left[ \max_{a \in [n]} \left\{ \sum_{t=1}^T r_{t,a} \right\} - \sum_{t=1}^T r_t \right] \quad \text{（期望取自玩家和对手的随机性）}\]

观察1

玩家策略必须是随机的，才能实现 $o(T)$ 的损失。

观察2

随机老虎机下界 $\Rightarrow$ 对抗性老虎机下界。
即：对任意玩家策略 $\pi$，存在对手使得 $R_T^\pi \geq \Omega(\sqrt{nT})$

主要定理

在多臂老虎机设置中，存在玩家策略 $\pi$，使得 $R_T^\pi \leq O(\sqrt{nT \log n})$。

乘法权重法：专家问题

热身问题

$n$ 个专家，时间范围 $T$。
每个时间步：

每个专家给出“是/否”建议。
玩家决定“是/否”。
玩家若决策错误则遭受损失。

问题1

若存在一个专家始终给出正确建议。最佳的玩家策略是什么？（在最坏情况下，玩家遭受损失的最小次数是多少？）

答案

$\lceil \log_2 n \rceil$。玩家始终跟随多数意见，并淘汰给出错误建议的专家。
$\Rightarrow$ 玩家每次遭受损失时，至少淘汰一半剩余专家
$\Rightarrow$ 玩家最多遭受 $\lceil \log_2 n \rceil$ 次损失。

问题2

若存在一个专家最多给出 $M$ 次错误建议。最佳玩家策略是什么？

简单方法

$M \lceil \log_2(n+1) \rceil + \lceil \log_2 n \rceil$。
使用多数策略直到所有专家被淘汰，然后重新招募并重复此过程，最多执行 $(M+1)$ 次。

更优方法（软惩罚/乘法权重）

为每个专家分配权重，初始权重为 $w_i^{(0)} = 1 \; \forall i \in [n]$。
在时间 $t$，根据权重 ${w_i^{(t)}}_{i \in [n]}$ 采取加权多数决策。
更新权重： $w_i^{(t+1)} = \begin{cases} w_i^{(t)} & \text{专家 } i \text{ 正确} \\ w_i^{(t)}/2 & \text{专家 } i \text{ 错误} \end{cases}$

分析

使用势函数 $W^{(t)} = \sum_{i=1}^n w_i^{(t)}$。我们有 $W^{(0)} = n$。

命题

若玩家在时间 $t$ 遭受损失，则 $W^{(t+1)} \leq \frac{3}{4} W^{(t)}$。

令 $R$ 为玩家遭受损失的次数，则 $W^{(T+1)} \leq \left(\frac{3}{4}\right)^R W^{(0)} = \left(\frac{3}{4}\right)^R \cdot n$。

由于存在一个专家最多给出 $M$ 次错误建议，因此 $w_i^{(T+1)} \geq \left(\frac{1}{2}\right)^M \Rightarrow W^{(T+1)} \geq \left(\frac{1}{2}\right)^M$。

综上：$\left(\frac{1}{2}\right)^M \leq \left(\frac{3}{4}\right)^R \cdot n \Rightarrow R \leq \log_{\frac{4}{3}} n + M \log_{\frac{4}{3}} 2$。

将 MW 应用于全信息设置（Hedge 策略 [Freund-Schapire’97]）

在时间 $t$：以概率 $p_a^{(t)} \triangleq \frac{w_a^{(t)}}{W^{(t)}}$ 选择动作 $a_t = a$。

更新权重：$w_a^{(t+1)} \leftarrow w_a^{(t)} \cdot \exp(\lambda \cdot r_{t,a}) \quad (\lambda \in (0,1)) \text{ 对每个 } a \in [n]$

分析

我们仍有：1) $W^{(0)} = n$，2) 对每个 $a$，$W^{(T+1)} \geq w_a^{(T+1)} = \exp(\lambda \sum_{t=1}^T r_{t,a})$。

对每个 $t$： $\begin{aligned} W^{(t+1)} &= \sum_a w_a^{(t+1)} = \sum_a w_a^{(t)} \cdot \exp(\lambda \cdot r_{t,a}) \\ &\leq \sum_a w_a^{(t)} \cdot (1 + \lambda r_{t,a} + \lambda^2 r_{t,a}^2) \quad \text{（因为 } e^x \leq 1+x+x^2 \text{ 当 } |x| \leq 1\text{）} \\ &\leq \sum_a w_a^{(t)} \cdot (1 + \lambda r_{t,a} + \lambda^2) \\ &= (1+\lambda^2)W^{(t)} + \lambda W^{(t)} \sum_a p_a^{(t)} \cdot r_{t,a} = W^{(t)} \left[ 1 + \lambda^2 + \lambda \sum_a p_a^{(t)} \cdot r_{t,a} \right] \\ &\leq W^{(t)} \cdot \exp\left( \lambda^2 + \lambda \sum_a p_a^{(t)} \cdot r_{t,a} \right) \quad \text{（因为 } 1+x \leq e^x\text{）} \end{aligned}$

综上：$W^{(T+1)} \leq W^{(0)} \cdot \exp\left( \lambda^2 T + \lambda \sum_{t=1}^T \sum_a p_a^{(t)} \cdot r_{t,a} \right)$

$\Rightarrow \sum_{t=1}^T \sum_a p_a^{(t)} \cdot r_{t,a} \geq \frac{1}{\lambda} \cdot \ln \frac{W^{(T+1)}}{W^{(0)}} - \lambda T$

结合 1) 和 2)：对每个 $a$，$\text{LHS（期望奖励）} \geq \frac{1}{\lambda} \left( \lambda \sum_{t=1}^T r_{t,a} - \ln n \right) - \lambda T = \sum_{t=1}^T r_{t,a} - \frac{1}{\lambda} \ln n - \lambda T$

因此，$R_T \leq \frac{1}{\lambda} \ln n + \lambda T \stackrel{\text{令 } \lambda = \sqrt{\frac{\ln n}{T}}}{=} O(\sqrt{T \ln n})$。

多臂老虎机设置：EXP3 算法

思路

对每个 $r_{t,a}$ 使用无偏估计，例如 $\hat{r}_{t,a} \triangleq \mathbf{1}[a_t = a] \cdot r_t / p_a^{(t)}$

可验证：$\mathbb{E} \hat{r}_{t,a} = \sum_{a’} p_{a’}^{(t)} \cdot \mathbf{1}[a’=a] \cdot r_{t,a} / p_a^{(t)} = r_{t,a}$。

EXP3 算法

使用略有不同的估计：$\hat{r}_{t,a} \triangleq 1 - \mathbf{1}[a_t = a] \cdot (1 - r_t) / p_a^{(t)}$。

验证：1) $\mathbb{E} \hat{r}_{t,a} = r_{t,a}$，2) $\hat{r}_{t,a} \leq 1$ 几乎必然成立。

更新规则：$w_a^{(t+1)} \leftarrow w_a^{(t)} \cdot \exp(\lambda \cdot \hat{r}_{t,a}) \quad (\lambda \in (0,1)) \text{ 对每个 } a \in [n]$。

分析

我们仍有：

\[\begin{cases} W^{(0)} = n \\ W^{(T+1)} \geq w_a^{(T+1)} = \exp(\lambda \cdot \sum_{t=1}^T \hat{r}_{t,a}) \text{ 对每个 } a \in [n] \end{cases}\]

对每个 $t$，有 $\begin{aligned} W^{(t+1)} &= \sum_a w_a^{(t+1)} = \sum_a w_a^{(t)} \exp(\lambda \cdot \hat{r}_{t,a}) \leq \sum_a w_a^{(t)} (1 + \lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) \quad \text{（因为 } e^x \leq 1+x+x^2 \text{ 当 } x \leq 1\text{）} \\ &= W^{(t)} \sum_a p_a^{(t)} (1 + \lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) = W^{(t)} \left[ 1 + \sum_a p_a^{(t)} (\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) \right] \\ &\leq W^{(t)} \exp\left( \sum_a p_a^{(t)} (\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2) \right) \quad \text{（因为 } 1+x \leq e^x\text{）}. \end{aligned}$

因此，$\ln W^{(t+1)} - \ln W^{(t)} \leq \sum_a p_a^{(t)} (\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2)$

$\Rightarrow$ 在给定前 $(t-1)$ 个时间步的条件下， $\begin{aligned} \mathbb{E} \ln W^{(t+1)} - \ln W^{(t)} &\leq \sum_a p_a^{(t)} (\lambda \cdot \mathbb{E} \hat{r}_{t,a} + \lambda^2 \cdot \mathbb{E} \hat{r}_{t,a}^2) \\ &= \lambda \cdot \sum_a p_a^{(t)} \cdot r_{t,a} + \lambda^2 \cdot \sum_a p_a^{(t)} \mathbb{E} \hat{r}_{t,a}^2. \end{aligned} \tag{*}$

注意 $\begin{aligned} \sum_a p_a^{(t)} \mathbb{E} \hat{r}_{t,a}^2 &= \sum_a p_a^{(t)} \cdot \sum_{a'} p_{a'}^{(t)} \cdot \left[ 1 - \mathbf{1}[a'=a] (1 - r_{t,a'}) / p_a^{(t)} \right]^2 \\ &= \sum_a p_a^{(t)} \cdot \left[ (1 - p_a^{(t)}) + p_a^{(t)} \cdot \left(1 - \frac{1 - r_{t,a}}{p_a^{(t)}} \right)^2 \right] \\ &\leq 1 + \sum_a \left( p_a^{(t)} - 1 + r_{t,a} \right)^2 \leq n+1 \end{aligned}$

因此，(*) $\Rightarrow \mathbb{E} \ln W^{(t+1)} - \ln W^{(t)} \leq \lambda \cdot \sum_a p_a^{(t)} \cdot r_{t,a} + \lambda^2 \cdot (n+1)$（在给定前 $(t-1)$ 个时间步的条件下）

$\Rightarrow \mathbb{E} \ln W^{(T+1)} - \mathbb{E} \ln W^{(0)} \leq \lambda \cdot \mathbb{E} \sum_{t=1}^T r_t + \lambda^2 T \cdot (n+1)$

综上：$\mathbb{E} W^{(T+1)} - \mathbb{E} W^{(0)} \leq \lambda \cdot \mathbb{E} \sum_{t=1}^T r_t + \lambda^2 T \cdot (n+1) \Rightarrow \forall a, \; \lambda \sum_{t=1}^T \mathbb{E} r_t + \lambda^2 T (n+1) \geq \lambda \sum_{t=1}^T \mathbb{E} r_{t,a} - \ln n$

因此，$R_T \leq \lambda T (n+1) + \frac{1}{\lambda} \ln n \stackrel{\text{令 } \lambda = \sqrt{\frac{\ln n}{T(n+1)}}}{=} O(\sqrt{T n \ln n})$。

Online Learning 上下文老虎机

2026-03-01T00:00:00+00:00

上下文老虎机

动机

额外的上下文信息有助于做出更好的决策。然而，上下文信息[不]{.underline}依赖于过去的行为。

对抗性上下文老虎机

策略类： $\Pi = { \pi : X \to A }$

游戏开始时：
对手为每个 $t \in [T]$ 选取 $x_t \in X$ 和奖励向量 $(r_{t,1}, r_{t,2}, …, r_{t,n}) \in [0,1]^n$。

在每个时间步 $t$：

玩家观察到 $x_t$，并选择 $a_t$。
玩家观察并获得奖励 $r_t = r_{t,a_t}$。

目标： 最小化后悔值 $R_T \triangleq \mathbb{E}\left[ \max_{\pi \in \Pi} \left\{ \sum_{t=1}^T r_{t,\pi(x_t)} \right\} - \sum_{t=1}^T r_t \right]$。（期望值取自玩家的随机性）

EXP4算法

乘法权重： $w^{(t)}: \Pi \to \mathbb{R}^{>0}$，初始化：对每个 $\pi \in \Pi$，$w^{(0)}(\pi) \leftarrow 1$。

在时间 $t$：

以概率 $p_a^{(t)} \triangleq \sum_{\pi: \pi(x_t)=a} \frac{w^{(t)}(\pi)}{W^{(t)}}$ 选择 $a \in [n]$，其中 $W^{(t)} \triangleq \sum_{\pi} w^{(t)}(\pi)$。
更新权重：$w^{(t+1)}(\pi) = w^{(t)}(\pi) \cdot \exp(\lambda \cdot \hat{r}_{t,\pi(x_t)})$，其中 $\lambda \in (0,1]$，且 $\hat{r}_{t,a} = 1 - \mathbf{1}[a_t=a] \cdot (1-r_t)/p_a^{(t)}$（当 $p_a^{(t)} > 0$ 时）。

分析

首先，我们有：1) $W^{(0)} = |\Pi|$。2) $\forall \pi \in \Pi$，$w^{(T+1)}(\pi) \ge w^{(T+1)}(\pi) = \exp(\lambda \sum_{t=1}^T \hat{r}_{t,\pi(x_t)})$。

对每个 $t$：

\[\begin{aligned} W^{(t+1)} &= \sum_{\pi} w^{(t+1)}(\pi) = \sum_{a} \sum_{\pi: \pi(x_t)=a} w^{(t)}(\pi) \cdot \exp(\lambda \cdot \hat{r}_{t,a}) \\ &= W^{(t)} \cdot \sum_{a} p_a^{(t)} \cdot \exp(\lambda \cdot \hat{r}_{t,a}) \\ &\le W^{(t)} \cdot \sum_{a} p_a^{(t)} \left(1 + \lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2 \right) \quad \text{（因为 } \lambda \hat{r}_{t,a} \le 1 \text{ 且 } \exp(x) \le 1+x+x^2 \text{ 当 } x \le 1\text{）} \\ &= W^{(t)} \left[1 + \sum_{a} \left(\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2 \right) \cdot p_a^{(t)} \right] \\ &\le W^{(t)} \cdot \exp\left( \sum_{a} \left(\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2 \right) \cdot p_a^{(t)} \right) \quad \text{（因为 } 1+x \le e^x\text{）} \end{aligned}\]

因此，$\ln W^{(t+1)} - \ln W^{(t)} \le \sum_{a} \left(\lambda \hat{r}_{t,a} + \lambda^2 \hat{r}_{t,a}^2 \right) \cdot p_a^{(t)}$。

在给定前 $(t-1)$ 个时间步的条件下， $\begin{aligned} \mathbb{E}[\ln W^{(t+1)} - \ln W^{(t)}] &\le \sum_{a} \lambda \cdot p_a^{(t)} \cdot \mathbb{E}[\hat{r}_{t,a}] + \sum_{a} \lambda^2 \cdot p_a^{(t)} \cdot \mathbb{E}[\hat{r}_{t,a}^2] \\ &\le \lambda \cdot \sum_{a} p_a^{(t)} \cdot r_{t,a} + \lambda^2 (n+1) \quad \text{（与EXP3相同）} \\ \text{因此，} \quad \mathbb{E}[\ln W^{(T+1)}] - \mathbb{E}[\ln W^{(0)}] &\le \lambda \cdot \sum_{t=1}^T \mathbb{E}[r_t] + \lambda^2 T (n+1) \end{aligned}$

综上：$\mathbb{E}[\ln W^{(T+1)}] - \mathbb{E}[\ln W^{(0)}] \le \lambda \cdot \sum_{t=1}^T \mathbb{E}[r_t] + \lambda^2 T (n+1)$

结合1)和2)：$\forall \pi \in \Pi, \quad \lambda \cdot \sum_{t=1}^T \mathbb{E}[r_t] \ge \lambda \cdot \sum_{t=1}^T r_{t,\pi(x_t)} - \ln |\Pi| - \lambda^2 T (n+1)$

因此，$R_T \le \frac{1}{\lambda} \ln |\Pi| + \lambda T (n+1)$。令 $\lambda = \sqrt{\frac{\ln |\Pi|}{T(n+1)}}$，可得 $O(\sqrt{nT \ln |\Pi|})$。

注： $\sum_{a} p_a^{(t)} \mathbb{E}[\hat{r}_{t,a}^2]$ 也可上界为 $|\Pi|+1$。

定理： EXP4的后悔值 $\le O(\sqrt{T \cdot \min\{n, |\Pi|\} \cdot \ln |\Pi|})$。

随机性上下文老虎机

在时间 $t$，$(x_t, r_{t,1}, …, r_{t,n}) \sim \mathcal{D}$（随机分布，$\mathcal{D}$ 对玩家不可见）。

EXP4在此设定下仍有效，但我们考虑另一种方法。

计划： 对每个 $\pi \in \Pi$ 估计 $\mu(\pi) \triangleq \mathbb{E}_{(x,r_1,…,r_n)\sim \mathcal{D}}[r_{\pi(x)}]$，并采用UCB/消除法。

假设我们以分布 $P$ 在 $\Pi$ 上进行探索，即选择 $\pi \sim P$，执行 $\pi(x_t)$ 并观察 $r_{t,\pi(x_t)}$。
定义 $W_P(x,a) \triangleq \Pr[a_t = a \mid x_t = x] = \sum_{\pi \in \Pi: \pi(x)=a} P(\pi)$。
构造无偏估计量 $\hat{r}_{t,a} \triangleq \frac{r_t \cdot \mathbf{1}[a_t=a]}{W_P(x_t,a)}$，验证：$\mathbb{E}_{a_t \sim W_P(x,\cdot)}[\hat{r}_{t,a}] = r_{t,a}$。
给定探索期 $Z$，对每个 $\pi \in \Pi$，构造无偏估计量 $\hat{\mu}(\pi) \triangleq \sum_{t \in Z} \hat{r}_{t,\pi(x_t)} / |Z|$，验证：$\mathbb{E}_{{a_t}_{t \in Z}}[\hat{\mu}(\pi)] = \mu(\pi)$。

关于偏差？ 回忆Bernstein不等式：

引理： 设 $x_1, x_2, …, x_n$ 独立，$x_i \in [0,M]$ 几乎必然 $\forall i$，则 $\forall \varepsilon > 0$，$\Pr\left[ \left| \sum_{i=1}^n x_i - \sum_{i=1}^n \mathbb{E}[x_i] \right| > \varepsilon \right] < 2 \exp\left( -\frac{\varepsilon^2/2}{\sum_{i=1}^n \mathrm{Var}[x_i] + \frac{1}{3} M \varepsilon} \right)$。

因此，我们需要对方差和 $M$ 进行上界估计。

稍有不同的估计量。 对于 $\lambda \in (0, \frac{1}{2}]$，使用以下分布进行探索：$\begin{cases} \text{选择 } \pi \sim P \text{ 并执行 } \pi(x_t) & \text{概率为 } 1-\lambda
\text{选择 } a_t \sim \mathrm{Unif}(A) \text{ 并执行 } a_t & \text{概率为 } \lambda \end{cases}$

即，$\Pr[a_t = a \mid x_t = x] = W_P’(x,a) \triangleq (1-\lambda) W_P(x,a) + \lambda/n$。然后构造我们的估计量：$\hat{r}_{t,a} \triangleq \frac{r_t \cdot \mathbf{1}[a_t=a]}{W_P’(x_t,a)} \in \left[0, \frac{n}{\lambda}\right]$ 几乎必然 $\Rightarrow$ 可设 $M = n/\lambda$。

引理（方差）： 存在 $\Pi$ 上的分布 $P$，使得若我们相应定义 $P’$，则 $\forall \pi \in \Pi, \; \mathbb{E}_{x_t \sim \mathcal{D}} \left[ \frac{1}{W_{P’}(x_t, \pi(x_t))} \right] \le 2n$。

注：上述引理意味着：$\forall \pi \in \Pi, \; \mathrm{Var}_{\mathcal{D},P}[\hat{r}_{t,\pi(x_t)}] \le \mathbb{E}_{\mathcal{D},P}[\hat{r}_{t,\pi(x_t)}^2] \le \mathbb{E}_{x_t \sim \mathcal{D}} \left[ \frac{1}{W_{P’}(x_t, \pi(x_t))} \right] \le 2n$。

方差引理的证明： 我们只需证明：$\min_{P \in \Delta\Pi} \max_{Q \in \Delta\Pi} \mathbb{E}_{\substack{x \sim \mathcal{D} \ \pi \sim Q}} \left[ \frac{1}{W_{P’}(x, \pi(x))} \right] \le 2n$，其中 $W_{P’}(x, \pi(x)) = \mathbb{E}_{\sigma \sim P} \left[ \mathbf{1}[\sigma(x) = \pi(x)] \cdot (1-\lambda) + \lambda/n \right]$。

令 $f(P,Q) = \mathbb{E}_{\substack{x \sim \mathcal{D} \ \pi \sim Q}} \left( \mathbb{E}_{\sigma \sim P} \left[ \mathbf{1}[\sigma(x) = \pi(x)] \cdot (1-\lambda) + \lambda/n \right] \right)^{-1}$。我们验证：

$f$ 关于 $Q$ 是线性的
$f$ 关于 $P$ 是凸的：$\forall P_1, P_2, Q, a,b : a,b \ge 0, a+b=1$，$af(P_1,Q) + bf(P_2,Q) \ge f(aP_1 + bP_2, Q)$。（归结为 $\frac{1}{c_1 x + c_2}$ 的凸性，$x \ge 0$，$c_1,c_2 > 0$）

应用冯·诺依曼极小极大定理：

定理： 设 $X,Y$ 为紧集，$f: X \times Y \to \mathbb{R}$ 连续，且

$f(\cdot,y): x \mapsto \mathbb{R}$ 对所有 $y \in Y$ 为凹函数，
$f(x,\cdot): Y \to \mathbb{R}$ 对所有 $x \in X$ 为凸函数，

则 $\max_{x \in X} \min_{y \in Y} f(x,y) = \min_{y \in Y} \max_{x \in X} f(x,y)$。

因此，$\min_{P \in \Delta\Pi} \max_{Q \in \Delta\Pi} f(P,Q) = \max_{Q \in \Delta\Pi} \min_{P \in \Delta\Pi} f(P,Q)$。

对每个 $Q \in \Delta\Pi$， $\begin{aligned} \min_{P \in \Delta\Pi} f(P,Q) &\le f(Q,Q) = \mathbb{E}_{\substack{x \sim \mathcal{D} \\ \pi \sim Q}} \left( \mathbb{E}_{\sigma \sim Q} \left[ \mathbf{1}[\sigma(x) = \pi(x)] \cdot (1-\lambda) + \lambda/n \right] \right)^{-1} \\ &= \mathbb{E}_{x \sim \mathcal{D}} \sum_{a} \frac{W_Q(x,a)}{W_Q(x,a) \cdot (1-\lambda) + \lambda/n} \le \mathbb{E}_{x \sim \mathcal{D}} \sum_{a} \frac{1}{1-\lambda} \le \mathbb{E}_{x \sim \mathcal{D}} \sum_{a} 2 = 2n. \end{aligned}$

现在，我们可以应用Bernstein不等式： $\begin{aligned} \Pr\left[ |\hat{\mu}(\pi) - \mu(\pi)| > \varepsilon \right] &< 2 \exp\left( -\frac{\varepsilon^2 \cdot |Z|/2}{2n \cdot |Z| + \frac{1}{3} \frac{n}{\lambda} \cdot \varepsilon |Z|} \right) = 2 \exp\left( -\frac{\varepsilon^2 \cdot |Z|/2}{2n + \frac{1}{3} \frac{n}{\lambda} \cdot \varepsilon} \right) \\ &\le 2 \exp\left( -\frac{\varepsilon^2 |Z|}{6n} \right) \quad \text{（只要 } \frac{\varepsilon}{\lambda} \le 3\text{）} \end{aligned}$

算法：策略消除

对轮次 $\tau = 1,2,3,\ldots$ 执行：

从 $\Pi_\tau$ 开始：$\varepsilon_\tau$-优策略集合（$\varepsilon_\tau \triangleq 2^{1-\tau}$，$\Pi_1 = \Pi$）
寻找满足方差引理的 $P_\tau \in \Delta\Pi_\tau$，其中 $\lambda_\tau = \varepsilon_\tau / 2$。
使用 $W_{P_\tau’}$ 进行 $m_\tau = \Theta(\varepsilon_\tau^{-2} n \ln(|\Pi| \cdot T))$ 个时间步的执行。
消除：$\Pi_{\tau+1} \leftarrow \left\{ \pi \in \Pi_\tau : \hat{\mu}_\tau(\pi) \ge \max_{\sigma \in \Pi_\tau} \hat{\mu}_\tau(\sigma) - \frac{\varepsilon_\tau}{2} \right\}$。

注：由于 $\mathcal{D}$ 未知，必须进行估计，因此实现步骤2需要额外努力。

分析

以高概率（例如 $1 - \frac{1}{T}$），$\forall \tau, \pi, \left| \hat{\mu}_\tau(\pi) - \mu(\pi) \right| \le \frac{\varepsilon_\tau}{4}$。

第 $\tau$ 轮的后悔值：$\varepsilon_\tau \cdot m_\tau = O(\varepsilon_\tau^{-1} \cdot n \ln(|\Pi| \cdot T))$。

令 $\tau^\ast$ 为最后一轮：$m_{\tau^\ast} \le O(T) \Rightarrow \varepsilon_{\tau^\ast} \cdot m_{\tau^\ast} \le O(\sqrt{nT \ln(|\Pi| \cdot T)})$。

因此，总后悔值 $\le O(\sqrt{nT \ln(|\Pi| \cdot T)})$。

优势？

当问题“可分离”时，可获得 $O(\frac{n \ln(|\Pi| T)}{\Delta})$ 的后悔值。
假设 $\Pi$ 具有结构性质，可实现计算高效（在 $\mathrm{poly}(n, T, \log|\Pi|)$ 时间内）。

Online Learning 线性老虎机

2026-03-01T00:00:00+00:00

线性老虎机

环境

隐藏的 $d$ 维向量 $\vec{\theta} \in \mathbb{R}^d$，$\|\vec{\theta}\|_2 \leq 1$，$n$ 个动作，时间 horizon $T$。

在时间 $t$，

与动作 $i$（$\forall i \in [n]$）相关的上下文向量 $\vec{x}_{t,i} \in \mathbb{R}^d$ 被揭示给玩家，$\|\vec{x}_{t,i}\|_2 \leq 1$，
玩家选择动作 $i_t \in [n]$ 并获得奖励 $r_t = \vec{x}_{t,i_t}^T \vec{\theta} + \varepsilon_t$，其中 $\varepsilon_t \sim \mathcal{N}(0,1)$ 是独立噪声（可推广至更一般的噪声）。

备注我们首先考虑“健忘对手”，即对手在游戏开始前选择所有上下文向量。

目标

最小化遗憾 $R_T \triangleq \mathbb{E} \sum_{t=1}^T \left( \max_{i \in [n]} \vec{x}_{t,i}^T \vec{\theta} - r_t \right)$。

问题

假设在时间 $t$，玩家已执行动作 $\vec{y}_\tau = \vec{x}_{\tau, i_\tau}$（$\tau = 1, 2, 3, …, t$）并观察到奖励 $r_\tau$（$\tau = 1, 2, 3, …, t$）。如何估计 $\theta$？

线性回归（OLS）

令 $S(\vec{\theta}) \triangleq \sum_{\tau=1}^t \left( r_\tau - \vec{y}_\tau^T \vec{\theta} \right)^2$，$\widehat{\vec{\theta}} \triangleq \arg\min_{\vec{\theta}} { S(\vec{\theta}) }$。

令 $\frac{d S(\vec{\theta})}{d \vec{\theta}} = 0$：

$\begin{aligned} 2 \left( \sum_{\tau=1}^t \vec{y}_\tau \vec{y}_\tau^T \right) \vec{\theta} &= 2 \sum_{\tau=1}^t r_\tau \vec{y}_\tau
\Rightarrow \widehat{\vec{\theta}} &= \left( \sum_{\tau=1}^t \vec{y}_\tau \vec{y}_\tau^T \right)^{-1} \sum_{\tau=1}^t r_\tau \vec{y}_\tau \quad \text{（假设 } \sum_{\tau=1}^t \vec{y}_\tau \vec{y}_\tau^T \text{ 可逆）} \end{aligned} $

置信区域

目标：给定测试向量 $\vec{x}$，置信水平 $1-\Delta$，找到 $\gamma$ 使得 $\Pr[ |\vec{x}^T (\vec{\theta} - \widehat{\vec{\theta}})| \leq \gamma ] \geq 1-\Delta$。

首先，假设 $V_t \triangleq \sum_{\tau=1}^t \vec{y}_\tau \vec{y}_\tau^T$ 可逆，我们有 $\begin{aligned} \vec{x}^T (\widehat{\vec{\theta}} - \vec{\theta}) &= \vec{x}^T \left( V_t^{-1} \sum_{\tau=1}^t (\vec{y}_\tau^T \vec{\theta} + \varepsilon_\tau) \vec{y}_\tau - \vec{\theta} \right)
&= \vec{x}^T \left( V_t^{-1} \sum_{\tau=1}^t \vec{y}_\tau \vec{y}_\tau^T \vec{\theta} + V_t^{-1} \sum_{\tau=1}^t \varepsilon_\tau \vec{y}_\tau - \vec{\theta} \right) = \vec{x}^T V_t^{-1} \sum_{\tau=1}^t \vec{y}_\tau \varepsilon_\tau. \end{aligned}$

假设 ${ \varepsilon_\tau }$ 与 ${ \vec{y}_\tau }$ 独立，则 $\vec{x}^T (\widehat{\vec{\theta}} - \vec{\theta})$ 是一个中心高斯变量，方差为 $\sum_{\tau=1}^t \left( \vec{x}^T V_t^{-1} \vec{y}_\tau \right)^2 = \sum_{\tau=1}^t \vec{x}^T V_t^{-1} \vec{y}_\tau \vec{y}_\tau^T V_t^{-1} \vec{x} = \vec{x}^T V_t^{-1} \left( \sum_{\tau=1}^t \vec{y}_\tau \vec{y}_\tau^T \right) V_t^{-1} \vec{x} = \vec{x}^T V_t^{-1} \vec{x}$。

由高斯尾部性质，若设 $\gamma = c \cdot \sqrt{\vec{x}^T V_t^{-1} \vec{x} \cdot \ln \Delta^{-1}}$，则 $\Pr[ |\vec{x}^T (\vec{\theta} - \widehat{\vec{\theta}})| > \gamma ] < \Delta$。

若 $V_t$ 不满秩怎么办？

考虑 $\widehat{\vec{\theta}} \triangleq (I + V_t)^{-1} \sum_{\tau=1}^t r_\tau \vec{y}_\tau$，此时我们有

$\begin{aligned} \vec{x} (\widehat{\vec{\theta}} - \vec{\theta}) &= \vec{x}^T \left[ (I + V_t)^{-1} \sum_{\tau=1}^t (\vec{y}_\tau^T \vec{\theta} + \varepsilon_\tau) \vec{y}_\tau - \vec{\theta} \right]
&= \vec{x}^T \left[ \left( (I + V_t)^{-1} V_t - I \right) \vec{\theta} + \sum_{\tau=1}^t (I + V_t)^{-1} \vec{y}_\tau \varepsilon_\tau \right] = \vec{x}^T \left[ (I + V_t)^{-1} \vec{\theta} + \sum_{\tau=1}^t (I + V_t)^{-1} \vec{y}_\tau \varepsilon_\tau \right]. \end{aligned}$

假设 ${ \varepsilon_\tau }$ 与 ${ \vec{y}_\tau }$ 独立，则 $\vec{x}^T (I + V_t)^{-1} \sum_{\tau=1}^t \vec{y}_\tau \varepsilon_\tau$ 是一个中心高斯变量，方差为 $\sum_{\tau=1}^t \vec{x}^T (I + V_t)^{-1} \vec{y}_\tau \vec{y}_\tau^T (I + V_t)^{-1} \vec{x} = \vec{x}^T (I + V_t)^{-1} V_t (I + V_t)^{-1} \vec{x} \leq \vec{x}^T (I + V_t)^{-1} \vec{x}$。

因此，以概率 $1-\Delta$，

\[\begin{aligned} |\vec{x} (\vec{\theta} - \widehat{\vec{\theta}})| &\leq |\vec{x}^T (I + V_t)^{-1} \vec{\theta}| + c \cdot \sqrt{\vec{x}^T (I + V_t)^{-1} \vec{x} \cdot \ln \Delta^{-1}} \\ &\leq \sqrt{\vec{x}^T (I + V_t)^{-1} \vec{x}} \cdot \sqrt{\vec{\theta}^T (I + V_t)^{-1} \vec{\theta}} + c \cdot \sqrt{\vec{x}^T (I + V_t)^{-1} \vec{x} \cdot \ln \Delta^{-1}} \\ &\leq c \cdot \sqrt{\vec{x}^T (I + V_t)^{-1} \vec{x} \cdot \ln \Delta^{-1}}。 \end{aligned}\]

引理

存在一个普适常数 $c>0$，使得对 $\Delta \in (0, \frac{1}{2})$，且 ${ \varepsilon_\tau }$ 与 ${ \vec{y}_\tau }$ 独立，对所有 $\vec{x} \in \mathbb{R}^d$，有 $\Pr[ |\vec{x}^T (\vec{\theta} - \widehat{\vec{\theta}})| \leq c \cdot \sqrt{\vec{x}^T (I + V_t)^{-1} \vec{x} \cdot \ln \Delta^{-1}} ] \geq 1-\Delta$。

LinUCB 算法

在时间 $t$，

设 $U_{t-1} = I + \sum_{\tau=1}^{t-1} \vec{y}_\tau \vec{y}_\tau^T$，$\widehat{\vec{\theta}}_t = U_{t-1}^{-1} \sum_{\tau=1}^{t-1} r_\tau \vec{y}_\tau$，
选择动作 $i_t = \arg\max_{i \in [n]} \left\{ \widehat{\vec{\theta}}_t^T \vec{x}_{t,i} + CI_{t,i} \right\}$，其中 $CI_{t,i} = c \sqrt{\vec{x}_{t,i}^T U_{t-1}^{-1} \vec{x}_{t,i} \ln(T^2 n)}$。

分析

令 $E$ 为事件：对所有 $t \in [T]$，$i \in [n]$，CI 成立。

由引理 1，“$\Pr[E] \geq 1 - \frac{1}{T}$”（由于相关性，这不精确）。

但让我们暂时假设它是正确的，之后再修正。在条件 $E$ 下，我们有

$\begin{aligned} \text{时间 } t \text{ 的遗憾} &\xrightarrow[\text{对噪声 } \varepsilon_t]{\text{取期望}} \max_{i \in [n]} \vec{x}_{t,i}^T \vec{\theta} - \vec{y}_t^T \vec{\theta} \quad \text{令 } i^\ast \text{ 为最大化者}
&\leq \vec{x}_{t,i^\ast}^T \widehat{\vec{\theta}}_t + | \vec{x}_{t,i^\ast}^T (\widehat{\vec{\theta}}_t - \vec{\theta}) | - \vec{y}_t^T \vec{\theta}
&\leq \vec{x}_{t,i^\ast}^T \widehat{\vec{\theta}}_t + CI_{t,i^\ast} - \vec{y}_t^T \vec{\theta} \quad \text{（由 E）}
&\leq \vec{x}_{t,i_t}^T \widehat{\vec{\theta}}_t + CI_{t,i_t} - \vec{y}_t^T \vec{\theta} \quad \text{（由 UCB 策略）}
&\leq 2 \cdot CI_{t,i_t} \quad \text{（由 E）} \end{aligned}$

因此，$R_T \leq \sum_{t=1}^T \mathbb{E} \left[ 2 CI_{t,i_t} \right] + 2 \cdot T \cdot \Pr[\bar{E}] \leq 2 + 2c \cdot \sqrt{\ln(T^2 n)} \cdot \mathbb{E} \sum_{t=1}^T \sqrt{\vec{y}_t^T U_{t-1}^{-1} \vec{y}_t}$。

引理

[椭球势能] $\sum_{t=1}^T \sqrt{\vec{y}_t^T U_{t-1}^{-1} \vec{y}_t}^2 \leq 2d \ln \left( \frac{T}{d} + 1 \right)$。

因此，由柯西-施瓦茨不等式，$\sum_{t=1}^T \sqrt{\vec{y}_t^T U_{t-1}^{-1} \vec{y}_t} \leq \sqrt{2dT \ln \left( \frac{T}{d} + 1 \right)}$。

我们“几乎”证明了 LinUCB 的遗憾为 $R_T \leq O \left( \sqrt{dT \ln \left( \frac{T}{d} + 1 \right) \ln(Tn)} \right)$。

引理 2 的证明

对每个 $t \geq 1$，我们有 $U_{t-1} \succeq I$，因此 $\vec{y}_t^T U_{t-1}^{-1} \vec{y}_t \leq \vec{y}_t^T \vec{y}_t \leq 1$。

由于 $U_t = U_{t-1} + \vec{y}_t \vec{y}_t^T = U_{t-1}^{1/2} \left( I + U_{t-1}^{-1/2} \vec{y}_t \vec{y}_t^T U_{t-1}^{-1/2} \right) U_{t-1}^{1/2}$，我们有 $\det(U_t) = \det(U_{t-1}) \det \left( I + U_{t-1}^{-1/2} \vec{y}_t \vec{y}_t^T U_{t-1}^{-1/2} \right)$。

断言 $\det(I + \vec{w} \vec{w}^T) = 1 + |\vec{w}|_2^2$

证明

由于 $(I + \vec{w} \vec{w}^T) \vec{w} = \vec{w} + (\vec{w}^T \vec{w}) \cdot \vec{w} \Rightarrow \lambda \vec{w} (I + \vec{w} \vec{w}^T) = 1 + \vec{w}^T \vec{w}$。

且 $\forall \vec{w}’ \perp \vec{w}, (I + \vec{w} \vec{w}^T) \vec{w}’ = \vec{w}’ \Rightarrow \lambda \vec{w}’ (I + \vec{w} \vec{w}^T) = 1$。

由断言，我们有 $\det(U_t) = \det(U_{t-1}) \cdot (1 + | U_{t-1}^{-1/2} \vec{y}_t |_2^2)$ $\Rightarrow \det(U_t) \geq \det(U_0) \cdot \exp \left( \sum_{t=1}^T \frac{1}{2} | U_{t-1}^{-1/2} \vec{y}_t |_2^2 \right) \quad \text{（因为 } 1+x \geq e^{x/2} \; \forall x \in [0,1] \text{）}$

因此 $\sum_{t=1}^T \| U_{t-1}^{-1/2} \vec{y}_t \|_2^2 \leq 2 \ln \frac{\det(U_T)}{\det(U_0)} = 2 \ln \det(U_T)$ $\xrightarrow{\text{(AM-GM)}} 2 \ln \left( \left( \frac{\mathrm{Tr}(U_T)}{d} \right)^d \right) = 2d \ln \left( \mathrm{Tr}(U_T)/d \right) \leq 2d \ln \left( \frac{d+T}{d} \right)$。

修复依赖问题：SupLinUCB 算法

在时间 $t$，构造 ${1,2,3,…,t-1}$ 的划分：${ \Psi_t^s }_{s \in {1,2,…,\lceil \log_2 \sqrt{T} \rceil}}$。

令 $\widehat{\vec{\theta}}_t^s \triangleq (U_t^s)^{-1} \sum_{\tau \in \Psi_t^s} r_\tau \vec{y}_\tau$，其中 $U_t^s \triangleq I + \sum_{\tau \in \Psi_t^s} \vec{y}_\tau \vec{y}_\tau^T$。

定义 CI 参数 $\omega_{t,i}^s \triangleq c \cdot \sqrt{\vec{x}_{t,i}^T (U_t^s)^{-1} \vec{x}_{t,i} \ln(T^2 n)} \quad \forall i \in [n]$，

估计均值 $\widehat{r}_{t,i}^s \triangleq (\widehat{\vec{\theta}}_t^s)^T \vec{x}_{t,i} \quad \forall i \in [n]$。

现在使用以下过程选择 $i_t$：

$s \leftarrow 1$；$A_s \leftarrow A = [n]$；
重复
若 $2^{-s} \leq \frac{1}{T}$，则 $i_t \leftarrow \arg\max_{i \in A_{s-1}} { \widehat{r}_{t,i}^{s-1} }$（情况 1）
否则若 $\exists i \in A_s, \omega_{t,i}^s > 2^{-s}$，则 $i_t \leftarrow \text{任意 } i \in A_s \text{ 使得 } \omega_{t,i}^s > 2^{-s}$（情况 2）
否则设 $A_{s+1} \leftarrow { i \in A_s : \widehat{r}_{t,i}^s + \omega_{t,i}^s \geq \max_{j \in A_s} { \widehat{r}_{t,j}^s + \omega_{t,j}^s } - 2^{1-s} }$，$s \leftarrow s+1$，直到找到 $i_t$。

最后，定义时间 $t+1$ 的划分：$\Psi_{t+1}^{s’} = \begin{cases} \Psi_t^{s’} \cup {t} & \text{当 } s’ = s
\Psi_t^{s’} & \text{否则} \end{cases} \quad \forall s’$。

观察设 $s_t$ 为重复循环后的 $s$ 值，则它仅依赖于噪声 $\varepsilon_\tau$，其中 $\tau \in \Psi_t^1 \cup \cdots \cup \Psi_t^{s_t-1}$，但不依赖于其他噪声。

引理

$\forall t,s$，${ \varepsilon_\tau }_{\tau \in \Psi_t^s}$ 与 ${ \vec{y}_\tau }_{\tau \in \Psi_t^s}$ 独立。

现在，我们可以应用引理 1 并得到：

引理

$\Pr[ \forall t,s, \left| \vec{\theta}^T \vec{x}_{t,i} - \widehat{r}_{t,i}^s \right| \leq \omega_{t,i}^s ] \geq 1 - \frac{\log T}{T}$。

在条件期望事件 $E$ 下，我们有：

$F_1 = { \forall t, s \leq s_t, \; \forall i \in A_{s,t}, \; \left| \vec{\theta}^T \vec{x}_{t,i} - \max_{j \in A_{s,t}} \vec{\theta}^T \vec{x}_{t,j} \right| \leq 2^{2-s} }$（其中 $A_{s,t}$ 是时间 $t$ 的 $A_s$ 集合）
$F_2 = { \forall t, s \leq s_t, \; i_t^\ast \in A_{s,t} }$（其中 $i_t^\ast = \arg\max_{i \in [n]} \vec{\theta}^T \vec{x}_{t,i}$）

引理

给定 $E \land F_1 \land F_2$，对每个 $t$，$\left| \vec{\theta}^T \vec{x}_{t,i_t} - \vec{\theta}^T \vec{x}_{t,i_t^\ast} \right| \leq O(1) \cdot \max { \frac{1}{T}, \omega_{t,i_t}^{s_t} }$。

证明

若 $i_t$ 由情况 2 选择，由 $F_1$ 和 $F_2$：$\left| \vec{\theta}^T \vec{x}_{t,i_t^\ast} - \vec{\theta}^T \vec{x}_{t,i_t} \right| \leq 2^{2-s_t} \leq 4 \cdot \omega_{t,i_t}^{s_t} \quad \text{（由情况 2 的 IF 条件）}$

若 $i_t$ 由情况 1 选择，由 $E$ 我们有 $\forall i \in A_{s_t-1}, \; \left| \vec{\theta}^T \vec{x}_{t,i} - \widehat{r}_{t,i}^{s_t-1} \right| \leq \omega_{t,i}^{s_t-1} \leq O(1) \cdot 2^{-s_t} \leq O(\frac{1}{T})$。

本情况下引理得证，因为 $F_2$。

因此，我们可以界定 SupLinUCB 算法的遗憾：

$\begin{aligned} R_T &\leq T \cdot \Pr[\bar{E}] + O(1) \mathbb{E} \sum_{t=1}^T \left( \frac{1}{T} + \omega_{t,i_t}^{s_t} \right) \leq O(\frac{1}{T}) + O(1) \cdot \mathbb{E} \sum_{s=1}^{\lceil \log_2 \sqrt{T} \rceil} \sum_{t \in \Psi_{T+1}^s} \omega_{t,i_t}^s
&\leq O(\frac{1}{T}) + O(1) \cdot \mathbb{E} \sum_{s=1}^{\lceil \log_2 \sqrt{T} \rceil} \sqrt{d |\Psi_{T+1}^s| \ln T \ln(nT)} \quad \text{（由椭球势能引理）}
&\leq O(\frac{1}{T}) + O(\log T) \cdot \sqrt{dT \log T \log(nT)} \leq O \left( \sqrt{dT (\log T)^2 \log(nT)} \right)。 \end{aligned}$

处理无穷多臂：覆盖方法

令 $D_t \subseteq \mathbb{R}^d$ 为时间 $t$ 的动作集合。

定义 $\widetilde{D}$ 是 $D$ 的 $\varepsilon$-覆盖，若 $\widetilde{D} \subseteq D$，且 $\forall \vec{x} \in D, \exists \vec{x}’ \in \widetilde{D}$ 满足 $\| \vec{x} - \vec{x}’ \|_2 \leq \varepsilon$。

引理

$\forall D \subseteq { \vec{x} \in \mathbb{R}^d : \|\vec{x}\|_2 \leq 1 }$，存在 $\widetilde{D}$ 是 $D$ 的 $\varepsilon$-覆盖且 $|\widetilde{D}| \leq \left( \frac{3}{\varepsilon} \right)^d$。

证明

（通过构造）从 $\widetilde{D} = \emptyset$ 开始。当 $D \neq \emptyset$ 时，任选 $\vec{x} \in D$，添加 $\vec{x}$ 到 $\widetilde{D}$，并从 $D$ 中移除所有满足 $\|\vec{y} - \vec{x}\|_2 \leq \varepsilon$ 的 $\vec{y}$。

显然 $\widetilde{D}$ 是 $D$ 的 $\varepsilon$-覆盖。只需上界 $|\widetilde{D}|$。注意

$\forall \vec{x}, \vec{x}’ \in \widetilde{D}$ 且 $\vec{x} \neq \vec{x}’$，有 $\| \vec{x} - \vec{x}’ \|_2 > \varepsilon$。即 $B_{\frac{\varepsilon}{2}}(\vec{x}) \cap B_{\frac{\varepsilon}{2}}(\vec{x}’) = \emptyset$。
$\bigcup_{\vec{x} \in \widetilde{D}} B_{\frac{\varepsilon}{2}}(\vec{x}) \subseteq B_{1+\frac{\varepsilon}{2}}(\vec{0})$。

因此，$\sum_{\vec{x} \in \widetilde{D}} \mathrm{Vol}(B_{\frac{\varepsilon}{2}}(\vec{x})) \leq \mathrm{Vol}(B_{1+\frac{\varepsilon}{2}}(\vec{0})) \Rightarrow |\widetilde{D}| \leq \frac{\mathrm{Vol}(B_{1+\frac{\varepsilon}{2}})}{\mathrm{Vol}(B_{\frac{\varepsilon}{2}})} = \frac{(1+\frac{\varepsilon}{2})^d}{(\frac{\varepsilon}{2})^d} \leq \left( \frac{3}{\varepsilon} \right)^d$。

回到线性-bandit：

设 $\varepsilon = \frac{1}{T}$，则存在 $\vec{u}_t^\ast \in \widetilde{D}_t$ 使得（记 $D_t$ 中的最优动作为 $\vec{u}_t^\ast$）$| \vec{\theta}^T (\vec{u}_t^\ast - \vec{u}_t^\ast) | \leq \| \vec{u}_t^\ast - \vec{u}_t^\ast \|_2 \leq \varepsilon = \frac{1}{T} \Rightarrow \text{额外总遗憾} \leq T \cdot \frac{1}{T} = 1$。
将 SupLinUCB 应用于动作集合 ${ \widetilde{D}_t }$：$R_T \leq O \left( \sqrt{dT (\log T)^2 \left( \log T + \log \left( (3T)^d \right) \right)} \right) \leq O \left( d \sqrt{T \log^3 T} \right)$。

处理无穷多臂：自归一化尾界方法

在 LinUCB 中，令 ${ \mathcal{F}_t }_{t=0}^T$ 为自然滤波。假设噪声 $\varepsilon_t$ 是 $\mathcal{F}_{t-1}$-可测且 $\mathbb{E}[\varepsilon_t \mid \mathcal{F}_{t-1}] = 0$，选定的动作 $\vec{y}_t$ 也是 $\mathcal{F}_{t-1}$-可测的。在时间 $t$，记 $U = U_{t-1} = I + \sum_{\tau=1}^{t-1} \vec{y}_\tau \vec{y}_\tau^T, \quad \widehat{\vec{\theta}} = \widehat{\vec{\theta}}_t = U_{t-1}^{-1} \sum_{\tau=1}^{t-1} r_\tau \vec{y}_\tau = U^{-1} \sum_{\tau=1}^{t-1} (\vec{\theta}^T \vec{y}_\tau + \varepsilon_\tau) \vec{y}_\tau$。

引理

[自归一化尾界] 以概率 $\geq 1-\Delta$，有 $\| \vec{\theta} - \widehat{\vec{\theta}} \|_U = \sqrt{(\vec{\theta} - \widehat{\vec{\theta}})^T U (\vec{\theta} - \widehat{\vec{\theta}})} \leq O(\sqrt{d \log(T/\Delta)})$。

Remark 利用上述引理，对任意 $\vec{x} \in \mathbb{R}^d$，有 $| \vec{x}^T (\vec{\theta} - \widehat{\vec{\theta}}) | = | \vec{x}^T U^{-1/2} U^{1/2} (\vec{\theta} - \widehat{\vec{\theta}}) | \leq \| \vec{x} \|_{U^{-1}} \cdot \| \vec{\theta} - \widehat{\vec{\theta}} \|_U \leq O(\sqrt{d \log(T/\Delta)}) \cdot \sqrt{\vec{x}^T U^{-1} \vec{x}}$。我们可以设 $\Delta = \frac{1}{T^2}$ 并令 $CI_{t,i} = c \cdot \sqrt{d \vec{x}_{t,i}^T U_{t-1}^{-1} \vec{x}_{t,i} \ln(T/\Delta)}$，从而推导出 LinUCB 的遗憾为 $R_T \leq O(d \sqrt{T \ln(\frac{T}{d}+1) \ln T})$。

Remark 上述分析同样适用于自适应对手，即对手根据 ${ \vec{y}_\tau, r_\tau }_{\tau < t}$ 选择上下文向量 ${ \vec{x}_{t,i} }_{i \in A}$。

自归一化尾界的证明

注意到

$\begin{aligned} \| \vec{\theta} - \widehat{\vec{\theta}} \|_U^2 &= (\vec{\theta} - \widehat{\vec{\theta}})^T U (\vec{\theta} - \widehat{\vec{\theta}}) = (\vec{\theta} - \widehat{\vec{\theta}})^T (U \vec{\theta} - \sum_{\tau=1}^{t-1} (\vec{\theta}^T \vec{y}_\tau + \varepsilon_\tau) \vec{y}_\tau)
&= (\vec{\theta} - \widehat{\vec{\theta}})^T (U \vec{\theta} - (U - I) \vec{\theta} - \sum_{\tau=1}^{t-1} \varepsilon_\tau \vec{y}_\tau) = (\vec{\theta} - \widehat{\vec{\theta}})^T (\vec{\theta} - \sum_{\tau=1}^{t-1} \varepsilon_\tau \vec{y}_\tau)
&\leq | (\vec{\theta} - \widehat{\vec{\theta}})^T \vec{\theta} | + \left| \sum_{\tau=1}^{t-1} (\vec{\theta} - \widehat{\vec{\theta}})^T \vec{y}_\tau \cdot \varepsilon_\tau \right|。 \end{aligned}$

因此，

$\begin{aligned} \| \vec{\theta} - \widehat{\vec{\theta}} \|_U &\leq \frac{| (\vec{\theta} - \widehat{\vec{\theta}})^T \vec{\theta} |}{\| \vec{\theta} - \widehat{\vec{\theta}} \|_U} + \left| \sum_{\tau=1}^{t-1} \frac{(\vec{\theta} - \widehat{\vec{\theta}})^T \vec{y}_\tau}{\| \vec{\theta} - \widehat{\vec{\theta}} \|_U} \cdot \varepsilon_\tau \right|
&\leq \sup_{\vec{\varphi} : \| \vec{\varphi} \|_U \leq 1} \left\{ | \vec{\varphi}^T \vec{\theta} | + \left| \sum_{\tau=1}^{t-1} \vec{\varphi}^T \vec{y}_\tau \cdot \varepsilon_\tau \right| \right\}。 \end{aligned}$

断言

以概率 $\geq 1-\Delta$，$\forall \vec{\varphi} : \| \vec{\varphi} \|_2 \leq 1, \left| \sum_{\tau=1}^{t-1} (\vec{\varphi}^T \vec{y}_\tau) \varepsilon_\tau \right| \leq O\left( \sqrt{d \log(T/\Delta)} \right) \cdot \sqrt{ \sum_{\tau=1}^{t-1} (\vec{\varphi}^T \vec{y}_\tau)^2 }$。

证明

对每个固定的 $\vec{\varphi}$，由“自适应 Azuma”界（设 Cor. 第 7 页中的 $B=T$），$\Pr\left[ \left| \sum_{\tau=1}^{t-1} (\vec{\varphi}^T \vec{y}_\tau) \varepsilon_\tau \right| > c \cdot \sqrt{d \ln(T/\Delta) \cdot \sum_{\tau=1}^{t-1} (\vec{\varphi}^T \vec{y}_\tau)^2 } + \frac{1}{T} \right] < 2 \exp\left( -\frac{c’ d \ln(T/\Delta)}{2} \right)$。

现在我们构造单位球面的 $\varepsilon$-网（$\varepsilon = \frac{1}{T^2}$）并对所有 $\vec{\varphi}$ 取并界。断言通过选择足够大的常数 $c$ 得证。

由上述断言，我们有以概率 $\geq 1-\Delta$，

$\begin{aligned} \| \vec{\theta} - \widehat{\vec{\theta}} \|_U &\leq \sup_{\vec{\varphi} : \| \vec{\varphi} \|_U \leq 1} \left\{ | \vec{\varphi}^T \vec{\theta} | + O(\sqrt{d \log(T/\Delta)} \cdot \sqrt{ \vec{\varphi}^T U \vec{\varphi} }) + \frac{1}{T} \right\}
&\leq \sup_{\vec{\varphi} : \| \vec{\varphi} \|_U \leq 1} \left\{ \| \vec{\varphi} \|_2 \right\} + O(\sqrt{d \log(T/\Delta)}) + \frac{1}{T} \leq O(\sqrt{d \log(T/\Delta)}) + 2。 \end{aligned}$

稀疏线性 bandit

$\| \vec{\theta} \|_0 \leq s$，$s$ 对玩家已知。

对 LinUCB 的修改

令 $\widehat{\vec{\theta}}_t$ 为约束 OLS 优化器：$\widehat{\vec{\theta}}_t \triangleq \arg\min_{\substack{\vec{\theta} : \| \vec{\theta} \|_0 \leq s \ \| \vec{\theta} \|_2 \leq 1}} \left\{ \sum_{\tau=1}^{t-1} (\vec{\theta}^T \vec{y}_\tau - r_\tau)^2 \right\}$。

新的置信区间：$CI_{t,\vec{x}} \triangleq c \cdot \sqrt{s \ln(dT/\Delta) \cdot \vec{x}^T U_{t-1}^{-1} \vec{x}}$。（通常设 $\Delta = \frac{1}{T^2}$）

新的自归一化尾界

对任意时间 $t$，记 $U = U_{t-1}, \widehat{\vec{\theta}} = \widehat{\vec{\theta}}_t$。注意到

$\begin{aligned} \sum_{\tau=1}^{t-1} (\widehat{\vec{\theta}}^T \vec{y}_\tau - r_\tau)^2 &\leq \sum_{\tau=1}^{t-1} (\vec{\theta}^T \vec{y}_\tau - r_\tau)^2 = \sum_{\tau=1}^{t-1} \varepsilon_\tau^2
&\text{II}
\sum_{\tau=1}^{t-1} \left( (\widehat{\vec{\theta}} - \vec{\theta})^T \vec{y}_\tau + \vec{\theta}^T \vec{y}_\tau - r_\tau \right)^2 &= (\widehat{\vec{\theta}} - \vec{\theta})^T (U - I) (\widehat{\vec{\theta}} - \vec{\theta}) + \sum_{\tau=1}^{t-1} \varepsilon_\tau^2 - 2 \sum_{\tau=1}^{t-1} (\widehat{\vec{\theta}} - \vec{\theta})^T \vec{y}_\tau \cdot \varepsilon_\tau
&\underbrace{= -\varepsilon_\tau}_{\text{因为 } r_\tau = \vec{\theta}^T \vec{y}_\tau + \varepsilon_\tau} \end{aligned}$

因此，$(\widehat{\vec{\theta}} - \vec{\theta})^T (U - I) (\widehat{\vec{\theta}} - \vec{\theta}) \leq 2 \sum_{\tau=1}^{t-1} (\widehat{\vec{\theta}} - \vec{\theta})^T \vec{y}_\tau \varepsilon_\tau$。

$\begin{aligned} \Rightarrow \| \widehat{\vec{\theta}} - \vec{\theta} \|_U^2 &\leq \| \widehat{\vec{\theta}} - \vec{\theta} \|_2^2 + 2 \sum_{\tau=1}^{t-1} (\widehat{\vec{\theta}} - \vec{\theta})^T \vec{y}_\tau \varepsilon_\tau \leq \| \widehat{\vec{\theta}} - \vec{\theta} \|_2 \cdot 2 + 2 \sum_{\tau=1}^{t-1} (\widehat{\vec{\theta}} - \vec{\theta})^T \vec{y}_\tau \varepsilon_\tau
\Rightarrow \| \widehat{\vec{\theta}} - \vec{\theta} \|_U &\leq 2 + 2 \sum_{\tau=1}^{t-1} \frac{(\widehat{\vec{\theta}} - \vec{\theta})^T}{\| \widehat{\vec{\theta}} - \vec{\theta} \|_U} \vec{y}_\tau \varepsilon_\tau \leq 2 + 2 \cdot \sup_{\substack{\vec{\varphi} : \| \vec{\varphi} \|_U \leq 1 \ \| \vec{\varphi} \|_0 \leq 2s}} \left| \sum_{\tau=1}^{t-1} \vec{\varphi}^T \vec{y}_\tau \varepsilon_\tau \right|。 \end{aligned}$

断言

以概率 $\geq 1-\Delta$，$\forall \vec{\varphi} : \| \vec{\varphi} \|_2 \leq 1, \| \vec{\varphi} \|_0 \leq 2s$，有 $\left| \sum_{\tau=1}^{t-1} \vec{\varphi}^T \vec{y}_\tau \varepsilon_\tau \right| \leq O(\sqrt{s \log(dT/\Delta)}) \cdot \sqrt{ \sum_{\tau=1}^{t-1} (\vec{\varphi}^T \vec{y}_\tau)^2 }$。

证明

类似于前一页断言的证明。唯一区别是集合 ${ \vec{\varphi} \in \mathbb{R}^d : \| \vec{\varphi} \|_2 \leq 1, \| \vec{\varphi} \|_0 \leq 2s }$ 存在一个大小为 $\binom{d}{2s} \cdot \left( \frac{3}{\varepsilon} \right)^{2s} \leq \exp(O(s \log d + s \log \frac{1}{\varepsilon}))$ 的 $\varepsilon$-网。

因此，我们有：

引理

对任意时间 $t$，以概率 $\geq 1-\Delta$，对所有 $\vec{x} \in \mathbb{R}^d$，有 $\| (\widehat{\vec{\theta}}_t - \vec{\theta})^T \vec{x} \|_2 \leq CI_{t,\vec{x}}$。

Theorem $s$-稀疏线性 bandit 的 LinUCB 遗憾为 $R_T \leq O(\sqrt{sd \log(dT) \log T})$。

用于鞅的自适应 Azuma

引理

[引自 arXiv 0707.3715，Bercu 和 Touati，定理 2.1 的推论，思想源自 De la Peña] 设 $(M_n)$ 为适应于滤波 $(\mathcal{F}_n)$ 的局部平方可积鞅，且 $M_0=0$。

设 $(C_n)_{n \geq 1}$ 为随机变量序列，使得 $C_k$ 为 $\mathcal{F}_{k-1}$-可测，且对所有 $k \geq 1$，$\Pr\left[ |M_k - M_{k-1}| \leq C_k \mid \mathcal{F}_{k-1} \right] = 1$。

则对所有 $x,y>0$，$\Pr\left[ |M_n| \geq x, \; \sum_{i=1}^n C_i^2 \leq y \right] \leq 2 \exp\left( -\frac{x^2}{4y} \right)$。

推论

同上设置，对任意 $B>1$，$\Delta \in (0,1)$，我们有 $\Pr\left[ |M_n| \geq 4 \sqrt{ \sum_{i=1}^n C_i^2 \cdot \ln(B/\Delta) } \land |M_n| \in [\frac{1}{B}, B] \right] \leq \lceil 2 \log_2 B \rceil \cdot \Delta$。

证明

令 $X = \left\{ \frac{1}{B} \cdot 2^i : i = 0, 1, …, \lceil 2 \log_2 B \rceil - 1 \right\}$。由并界，我们有 $\Pr\left[ \exists x \in X, \; |M_n| \geq x, \; \sum_{i=1}^n C_i^2 \leq \frac{x^2}{4 \ln(B/\Delta)} \right] \leq \lceil 2 \log_2 B \rceil \cdot \Delta$。

我们通过证明 $|M_n| \geq 4 \sqrt{ \sum_{i=1}^n C_i^2 \cdot \ln(B/\Delta) } \land |M_n| \in [\frac{1}{B}, B]$ 意味着上述事件来证明推论。这是因为我们可以选择 $x$ 为不超过 $|M_n|$ 的 $X$ 中最大元素。于是我们有 $|M_n| \geq x$ 且 $4x^2 \geq M_n^2 \geq 16 \sum_{i=1}^n C_i^2 \cdot \ln(B/\Delta)$，即 $\sum_{i=1}^n C_i^2 \leq \frac{x^2}{4 \ln(B/\Delta)}$。

Online Learning 线性老虎机下界

2026-03-01T00:00:00+00:00

线性老虎机下界

回顾线性老虎机（$n$ 个臂）的遗憾上界：$O(\sqrt{d T \ln^2 T (\min{d, \ln n} + \ln T)})$。

事实 $D_{\mathrm{KL}}(\mathcal{N}(\mu_1, \sigma^2) | \mathcal{N}(\mu_2, \sigma^2)) = \frac{1}{2\sigma^2} (\mu_1 - \mu_2)^2$。

现在我们关注标准高斯噪声（$\sigma^2=1$）的老虎机实例。

定理 1 给定 $T, d$（满足 $T \geq d^2$），令动作集（$\forall t \in [T]$）$A_t \equiv A = \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$。对于任意策略 $\pi$，存在 $\vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，使得 $R_{T,\vec{\theta}}^\pi \geq \Omega(d\sqrt{T})$。

证明令 $P_{\pi, \vec{\theta}, t}$ 表示由策略 $\pi$ 生成、当隐藏向量为 $\vec{\theta}$ 时前 $t$ 个时间步的历史的概率测度。我们首先计算： \(\begin{aligned} D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, t} \| P_{\pi, \vec{\theta}', t}) &= \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \mathop{\mathbb{E}}_{r_t \sim \mathcal{N}(\langle \vec{a}_t, \vec{\theta} \rangle)} \ln \frac{P_{\pi, \vec{\theta}, t}(h, \vec{a}_t, r_t)}{P_{\pi, \vec{\theta}', t}(h, \vec{a}_t, r_t)} \\ &= \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \mathop{\mathbb{E}}_{r_t \sim \mathcal{N}(\langle \vec{a}_t, \vec{\theta} \rangle)} \ln \frac{P_{\pi, \vec{\theta}, t-1}(h) \cdot \pi(\vec{a}_t | h) \cdot \mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta} \rangle)}{P_{\pi, \vec{\theta}', t-1}(h) \cdot \pi(\vec{a}_t | h) \cdot \mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta}' \rangle)} \\ &= \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \ln \frac{P_{\pi, \vec{\theta}, t-1}(h)}{P_{\pi, \vec{\theta}', t-1}(h)} + \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \mathop{\mathbb{E}}_{r_t \sim \mathcal{N}(\langle \vec{a}_t, \vec{\theta} \rangle)} \ln \frac{\mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta} \rangle)}{\mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta}' \rangle)} \\ &= D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, t-1} \| P_{\pi, \vec{\theta}', t-1}) + \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \frac{1}{2} \left( \vec{a}_t^T (\vec{\theta} - \vec{\theta}') \right)^2 \\ &= \sum_{\tau=1}^{t} \mathop{\mathbb{E}}_{P_{\pi, \vec{\theta}, \tau}} \frac{1}{2} \left( \vec{a}_\tau^T (\vec{\theta} - \vec{\theta}') \right)^2. \end{aligned}\)

令 $\vec{\theta}^{\oplus i}$ 表示将 $\vec{\theta}$ 的第 $i$ 个分量符号翻转后得到的向量。对任意 $\vec{a} \in A$、任意 $i \in [d]$ 和任意 $\vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，注意到 $\left( \vec{a}^T (\vec{\theta} - \vec{\theta}^{\oplus i}) \right)^2 = \left( \sqrt{\frac{4}{T}} \cdot 2\sqrt{\frac{4}{T}} \right)^2 = \frac{4}{T}$。因此，$D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, t} | P_{\pi, \vec{\theta}^{\oplus i}, t}) = \frac{2t}{T}, \quad \quad \forall i \in [d], \vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$。

令 $E_{i,b}$（$i \in [d], b \in {\pm 1}$）为事件 $\left\{ \left| { t \in [T] : \mathrm{sgn}(\vec{a}_t)_i \neq b } \right| \geq T/2 \right\}$。注意 $E_{i,-b} = \left\{ \left| { t \in [T] : \mathrm{sgn}(\vec{a}_t)_i = b } \right| \geq T/2 \right\} \supseteq \left\{ \left| { t \in [T] : \mathrm{sgn}(\vec{a}_t)_i \neq b } \right| < T/2 \right\} = \overline{E_{i,b}}$。因此，对每个 $i \in [d], b \in {\pm 1}, \vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，有： $\begin{aligned} \Pr[E_{i,b} | \vec{\theta}] + \Pr[E_{i,-b} | \vec{\theta}^{\oplus i}] &\geq \Pr[E_{i,b} | \vec{\theta}] + \Pr[\overline{E_{i,b}} | \vec{\theta}^{\oplus i}] \\ &\geq 1 - \left| \Pr[E_{i,b} | \vec{\theta}] - \Pr[E_{i,b} | \vec{\theta}^{\oplus i}] \right| \geq 1 - \Delta(P_{\pi, \vec{\theta}, T}, P_{\pi, \vec{\theta}^{\oplus i}, T}) \\ &\geq \frac{1}{2} \exp(-D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, T} \| P_{\pi, \vec{\theta}^{\oplus i}, T})) = \frac{1}{2} e^{-2}. \end{aligned}$ （回顾高概率 Pinsker 不等式：$\Delta(P,Q) \leq 1 - \frac{1}{2} \exp(-D_{\mathrm{KL}}(P|Q))$）。

因此，若令 $q_{i,\vec{\theta}} = \Pr[E_{i,\vec{\theta}_i} \mid \vec{\theta}]$，我们有 $q_{i,\vec{\theta}} + q_{i,\vec{\theta}^{\oplus i}} \geq \frac{1}{2} e^{-2} \quad \quad \forall i \in [d], \vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$。注意 $R_{T,\vec{\theta}}^\pi \geq \sum_{i=1}^{d} q_{i,\vec{\theta}} \cdot \frac{T}{2} \cdot \frac{2}{\sqrt{T}} = \sqrt{T} \sum_{i=1}^{d} q_{i,\vec{\theta}}$。因此，

\[\begin{aligned} \frac{1}{2^d} \sum_{\vec{\theta} \in \\{ \pm \sqrt{\frac{4}{T}} \\}^d} R_{T,\vec{\theta}}^\pi &\geq \frac{\sqrt{T}}{2^d} \sum_{\vec{\theta}} \sum_{i=1}^{d} q_{i,\vec{\theta}} = \frac{\sqrt{T}}{2^d} \sum_{i=1}^{d} ( \sum_{\vec{\theta}} q_{i,\vec{\theta}} + \sum_{\vec{\theta}} q_{i,\vec{\theta}^{\oplus i}} ) \cdot \frac{1}{2} \\ &= \frac{\sqrt{T}}{2^d} \sum_{i=1}^{d} \sum_{\vec{\theta}} \frac{1}{2} (q_{i,\vec{\theta}} + q_{i,\vec{\theta}^{\oplus i}}) \geq \frac{\sqrt{T}}{2^d} \sum_{i=1}^{d} \sum_{\vec{\theta}} \frac{1}{2} \cdot \frac{1}{2} e^{-2} \\ &= \frac{\sqrt{T}}{2^d} \cdot d \cdot 2^d \cdot \frac{1}{4} e^{-2} = \frac{e^{-2}}{4} d\sqrt{T}. \end{aligned}\]

因此，存在 $\vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，使得 $R_{T,\vec{\theta}}^\pi \geq \frac{e^{-2}}{4} d\sqrt{T}$。

推论 2 对任意 $n=2^k, k \in {1,2,\cdots,d}$，对任意策略 $\pi$，存在一个线性 bandit 实例 $I$（$\vec{\theta} \in \mathbb{R}^d$，${\vec{x}_{t,i} \in \mathbb{R}^d}_{t \in [T], i \in [n]}$），使得 $R_{T,I}^\pi \geq \Omega(\sqrt{d T \cdot k}) = \Omega(\sqrt{d T \log n})$。

证明令 $\beta = \lfloor \frac{d}{k} \rfloor$。给定 $k$ 维、$n$ 个臂、时长为 $T_\beta$ 的实例 $I_1, I_2, \cdots, I_\beta$，我们构造 $I = I(I_1, \cdots, I_\beta)$ 如下：

将 $d$ 个维度划分为 $\beta$ 个连续块，每块包含 $k$ 个维度。
将 $T$ 个时间步划分为 $\beta$ 个连续块，每块包含 $T_\beta$ 个时间步。
隐藏向量 $\vec{\theta} = (\vec{\theta}_1, \vec{\theta}_2, \cdots, \vec{\theta}_\beta)$，其中 $\vec{\theta}_i$ 是 $I_i$ 的隐藏向量。
在时间步 $(i-1)\cdot T_\beta + t$（第 $i$ 块中的第 $t$ 步）中，提供 $I_i$ 中第 $t$ 步对应的臂。
- 将向量放入第 $i$ 个维度块，其余部分补零。

根据上述构造，对任意策略 $\pi$，存在 $\pi_1$ 使得对任意 $I_1$，存在 $\pi_2$ 使得对任意 $I_2$，存在 $\pi_3$ 使得对任意 $I_3$，……，对任意 $I_{\beta-1}$，存在 $\pi_\beta$ 使得对任意 $I_\beta$，令 $I = I(I_1, \cdots, I_\beta)$，有 $R_{T,I}^\pi = \sum_{i=1}^{\beta} R_{T_\beta, I_i}^{\pi_i}$。由定理 1，我们逐步构造 $I_1, I_2, \cdots, I_\beta$（同时构造 $\pi_1, \pi_2, \cdots, \pi_\beta$），使得 $R_{T_\beta, I_i}^{\pi_i} \geq \frac{e^{-2}}{4} k \sqrt{T_\beta} \quad (\forall i \in [\beta])$。由此可构造 $I = (I_1, I_2, \cdots, I_\beta)$，使得 $R_{T,I}^\pi \geq \frac{e^{-2}}{4} k \sqrt{T_\beta} \cdot \beta = \frac{e^{-2}}{4} k \sqrt{T_\beta} = \Omega(k \cdot \sqrt{T \cdot d/k}) = \Omega(\sqrt{T d k})$。

改进的下界：（无意识对手）

定理 3（Li-Wang-Zhou’2024） 对任意 $n, T, d$ 满足 $n \leq 2^{d/2}$，$T \geq d (\log_2 n)^{1.1}$，对任意策略 $\pi$，存在一个具有 $d$ 维、$n$ 个臂、时长 $T$ 的线性 bandit 实例 $I$，使得 $R_{T,I}^\pi \geq \Omega(1) \cdot \sqrt{d T \log n \log(T/d)}$。

证明定理 3 的一个关键观察是关于椭圆势引理的紧致性。（即使当 $d=1$）

引理 4 对任意 $T \geq 1$，存在序列 $z_1, z_2, \cdots, z_T \in [0,1]$，若令 $V_0=1$，$V_t = V_{t-1} + z_t z_t^T$ 对 $t \geq 1$，则 $\sum_{t=1}^{T} \sqrt{z_t^2 / V_{t-1}} \geq \sqrt{\frac{T \ln T}{2}}$。

证明令 $S_t = \left(1 + \frac{\ln T}{2T}\right)^t$ 对所有 $t \geq 0$。令 $z_t = \sqrt{\frac{S_{t-1} \ln T}{2T}}$ 对所有 $t \geq 1$。注意 $z_t$ 关于 $t$ 单调递增。同时，$S_{T-1} = \left(1 + \frac{\ln T}{2T}\right)^{T-1} \leq \sqrt{T}$。因此，对所有 $t \leq T$，有 $0 \leq z_t \leq \sqrt{\frac{S_{T-1} \ln T}{2T}} \leq \sqrt{\frac{\sqrt{T} \ln T}{2}} \leq 1$，即 $z_t \in [0,1]$。此外，注意 $V_t = 1 + \sum_{j=1}^{t} z_j^2 = 1 + \frac{\ln T}{2T} \sum_{j=1}^{t} \left(1 + \frac{\ln T}{2T}\right)^{j-1} = \left(1 + \frac{\ln T}{2T}\right)^t = S_t$。因此， $\sum_{t=1}^{T} \sqrt{z_t^2 / V_{t-1}} = \sum_{t=1}^{T} \sqrt{V_{t-1}^{-1}} z_t = \sum_{t=1}^{T} \sqrt{\frac{\ln T}{2T}} = \sqrt{\frac{T \ln T}{2}}。$

改进的上界：（无意识对手）

定理 5（Li-Wang-Zhou’2024） 可设计一种策略，实现最小最大遗憾 $R_T \leq \mathrm{poly}(\log \log(nT)) \cdot \sqrt{d T (\log T) (\log n)}$。

David Sun

Online Learning 导论

导论

传统机器学习：“先学后用”

在线学习：“边学边用”

示例1：动态定价

传统机器学习方法：

在线学习

共同目标：

观察：

示例2：定价与库存管理

总体目标：

观察：

单臂老虎机与强化学习

单臂老虎机

强化学习

示例3：个性化定价（上下文多臂老虎机）

共同目标（上下文多臂老虎机）：

观察要点：

大纲

Online Learning 集中不等式

集中不等式

问题背景

简单策略：探索后承诺（ETC）

问题

备注

模型设定

回顾：中心极限定理

备注

贝里-埃森定理（带误差界限的中心极限定理）

示例

注释（该界限的紧密度如何？）

切诺夫/尾部界限

动机示例

目标

随机变量上界：信息量越多 $\Rightarrow$ 上界越精确

马可夫不等式（仅知均值时）

证明

切比雪夫不等式（需知均值与方差）

证明

回到情景（*）

基于马尔可夫原理

契比雪夫不等式

注释

继续推导

“切尔诺夫方法”

切诺夫界

备注

证明

其他有用的集中不等式.

霍夫丁不等式

伯恩斯坦不等式

切诺夫、霍夫丁与伯恩斯坦不等式的比较：一个实例

观察点*

补充说明

Online Learning 多臂老虎机基础算法

多臂老虎机基础算法

预热：更好臂问题

目标

算法 1

分析

推论

悔恨最小化

目标

先探索后承诺（ETC）

分析

注释

习题

能否利用最新信息优化决策？

贪婪策略

结论

证明

经验教训

$\varepsilon$-贪婪算法

分析

上置信界限法（UCB）

核心思想

符号定义

置信界限 （霍夫丁公式）

UCB算法

置信界限（霍夫丁公式）