Online Learning 线性老虎机下界

线性老虎机下界

回顾线性老虎机（$n$ 个臂）的遗憾上界：$O(\sqrt{d T \ln^2 T (\min{d, \ln n} + \ln T)})$。

事实 $D_{\mathrm{KL}}(\mathcal{N}(\mu_1, \sigma^2) | \mathcal{N}(\mu_2, \sigma^2)) = \frac{1}{2\sigma^2} (\mu_1 - \mu_2)^2$。

现在我们关注标准高斯噪声（$\sigma^2=1$）的老虎机实例。

定理 1 给定 $T, d$（满足 $T \geq d^2$），令动作集（$\forall t \in [T]$）$A_t \equiv A = \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$。对于任意策略 $\pi$，存在 $\vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，使得 $R_{T,\vec{\theta}}^\pi \geq \Omega(d\sqrt{T})$。

证明令 $P_{\pi, \vec{\theta}, t}$ 表示由策略 $\pi$ 生成、当隐藏向量为 $\vec{\theta}$ 时前 $t$ 个时间步的历史的概率测度。我们首先计算： \(\begin{aligned} D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, t} \| P_{\pi, \vec{\theta}', t}) &= \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \mathop{\mathbb{E}}_{r_t \sim \mathcal{N}(\langle \vec{a}_t, \vec{\theta} \rangle)} \ln \frac{P_{\pi, \vec{\theta}, t}(h, \vec{a}_t, r_t)}{P_{\pi, \vec{\theta}', t}(h, \vec{a}_t, r_t)} \\ &= \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \mathop{\mathbb{E}}_{r_t \sim \mathcal{N}(\langle \vec{a}_t, \vec{\theta} \rangle)} \ln \frac{P_{\pi, \vec{\theta}, t-1}(h) \cdot \pi(\vec{a}_t | h) \cdot \mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta} \rangle)}{P_{\pi, \vec{\theta}', t-1}(h) \cdot \pi(\vec{a}_t | h) \cdot \mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta}' \rangle)} \\ &= \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \ln \frac{P_{\pi, \vec{\theta}, t-1}(h)}{P_{\pi, \vec{\theta}', t-1}(h)} + \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \mathop{\mathbb{E}}_{r_t \sim \mathcal{N}(\langle \vec{a}_t, \vec{\theta} \rangle)} \ln \frac{\mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta} \rangle)}{\mathcal{N}(r_t | \langle \vec{a}_t, \vec{\theta}' \rangle)} \\ &= D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, t-1} \| P_{\pi, \vec{\theta}', t-1}) + \mathop{\mathbb{E}}_{h \sim P_{\pi, \vec{\theta}, t-1}} \mathop{\mathbb{E}}_{\vec{a}_t \sim \pi(\cdot | h)} \frac{1}{2} \left( \vec{a}_t^T (\vec{\theta} - \vec{\theta}') \right)^2 \\ &= \sum_{\tau=1}^{t} \mathop{\mathbb{E}}_{P_{\pi, \vec{\theta}, \tau}} \frac{1}{2} \left( \vec{a}_\tau^T (\vec{\theta} - \vec{\theta}') \right)^2. \end{aligned}\)

令 $\vec{\theta}^{\oplus i}$ 表示将 $\vec{\theta}$ 的第 $i$ 个分量符号翻转后得到的向量。对任意 $\vec{a} \in A$、任意 $i \in [d]$ 和任意 $\vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，注意到 $\left( \vec{a}^T (\vec{\theta} - \vec{\theta}^{\oplus i}) \right)^2 = \left( \sqrt{\frac{4}{T}} \cdot 2\sqrt{\frac{4}{T}} \right)^2 = \frac{4}{T}$。因此，$D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, t} | P_{\pi, \vec{\theta}^{\oplus i}, t}) = \frac{2t}{T}, \quad \quad \forall i \in [d], \vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$。

令 $E_{i,b}$（$i \in [d], b \in {\pm 1}$）为事件 $\left\{ \left| { t \in [T] : \mathrm{sgn}(\vec{a}_t)_i \neq b } \right| \geq T/2 \right\}$。注意 $E_{i,-b} = \left\{ \left| { t \in [T] : \mathrm{sgn}(\vec{a}_t)_i = b } \right| \geq T/2 \right\} \supseteq \left\{ \left| { t \in [T] : \mathrm{sgn}(\vec{a}_t)_i \neq b } \right| < T/2 \right\} = \overline{E_{i,b}}$。因此，对每个 $i \in [d], b \in {\pm 1}, \vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，有： $\begin{aligned} \Pr[E_{i,b} | \vec{\theta}] + \Pr[E_{i,-b} | \vec{\theta}^{\oplus i}] &\geq \Pr[E_{i,b} | \vec{\theta}] + \Pr[\overline{E_{i,b}} | \vec{\theta}^{\oplus i}] \\ &\geq 1 - \left| \Pr[E_{i,b} | \vec{\theta}] - \Pr[E_{i,b} | \vec{\theta}^{\oplus i}] \right| \geq 1 - \Delta(P_{\pi, \vec{\theta}, T}, P_{\pi, \vec{\theta}^{\oplus i}, T}) \\ &\geq \frac{1}{2} \exp(-D_{\mathrm{KL}}(P_{\pi, \vec{\theta}, T} \| P_{\pi, \vec{\theta}^{\oplus i}, T})) = \frac{1}{2} e^{-2}. \end{aligned}$ （回顾高概率 Pinsker 不等式：$\Delta(P,Q) \leq 1 - \frac{1}{2} \exp(-D_{\mathrm{KL}}(P|Q))$）。

因此，若令 $q_{i,\vec{\theta}} = \Pr[E_{i,\vec{\theta}_i} \mid \vec{\theta}]$，我们有 $q_{i,\vec{\theta}} + q_{i,\vec{\theta}^{\oplus i}} \geq \frac{1}{2} e^{-2} \quad \quad \forall i \in [d], \vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$。注意 $R_{T,\vec{\theta}}^\pi \geq \sum_{i=1}^{d} q_{i,\vec{\theta}} \cdot \frac{T}{2} \cdot \frac{2}{\sqrt{T}} = \sqrt{T} \sum_{i=1}^{d} q_{i,\vec{\theta}}$。因此，

\[\begin{aligned} \frac{1}{2^d} \sum_{\vec{\theta} \in \\{ \pm \sqrt{\frac{4}{T}} \\}^d} R_{T,\vec{\theta}}^\pi &\geq \frac{\sqrt{T}}{2^d} \sum_{\vec{\theta}} \sum_{i=1}^{d} q_{i,\vec{\theta}} = \frac{\sqrt{T}}{2^d} \sum_{i=1}^{d} ( \sum_{\vec{\theta}} q_{i,\vec{\theta}} + \sum_{\vec{\theta}} q_{i,\vec{\theta}^{\oplus i}} ) \cdot \frac{1}{2} \\ &= \frac{\sqrt{T}}{2^d} \sum_{i=1}^{d} \sum_{\vec{\theta}} \frac{1}{2} (q_{i,\vec{\theta}} + q_{i,\vec{\theta}^{\oplus i}}) \geq \frac{\sqrt{T}}{2^d} \sum_{i=1}^{d} \sum_{\vec{\theta}} \frac{1}{2} \cdot \frac{1}{2} e^{-2} \\ &= \frac{\sqrt{T}}{2^d} \cdot d \cdot 2^d \cdot \frac{1}{4} e^{-2} = \frac{e^{-2}}{4} d\sqrt{T}. \end{aligned}\]

因此，存在 $\vec{\theta} \in \left\{ \pm \sqrt{\frac{4}{T}} \right\}^d$，使得 $R_{T,\vec{\theta}}^\pi \geq \frac{e^{-2}}{4} d\sqrt{T}$。

推论 2 对任意 $n=2^k, k \in {1,2,\cdots,d}$，对任意策略 $\pi$，存在一个线性 bandit 实例 $I$（$\vec{\theta} \in \mathbb{R}^d$，${\vec{x}_{t,i} \in \mathbb{R}^d}_{t \in [T], i \in [n]}$），使得 $R_{T,I}^\pi \geq \Omega(\sqrt{d T \cdot k}) = \Omega(\sqrt{d T \log n})$。

证明令 $\beta = \lfloor \frac{d}{k} \rfloor$。给定 $k$ 维、$n$ 个臂、时长为 $T_\beta$ 的实例 $I_1, I_2, \cdots, I_\beta$，我们构造 $I = I(I_1, \cdots, I_\beta)$ 如下：

将 $d$ 个维度划分为 $\beta$ 个连续块，每块包含 $k$ 个维度。
将 $T$ 个时间步划分为 $\beta$ 个连续块，每块包含 $T_\beta$ 个时间步。
隐藏向量 $\vec{\theta} = (\vec{\theta}_1, \vec{\theta}_2, \cdots, \vec{\theta}_\beta)$，其中 $\vec{\theta}_i$ 是 $I_i$ 的隐藏向量。
在时间步 $(i-1)\cdot T_\beta + t$（第 $i$ 块中的第 $t$ 步）中，提供 $I_i$ 中第 $t$ 步对应的臂。
- 将向量放入第 $i$ 个维度块，其余部分补零。

根据上述构造，对任意策略 $\pi$，存在 $\pi_1$ 使得对任意 $I_1$，存在 $\pi_2$ 使得对任意 $I_2$，存在 $\pi_3$ 使得对任意 $I_3$，……，对任意 $I_{\beta-1}$，存在 $\pi_\beta$ 使得对任意 $I_\beta$，令 $I = I(I_1, \cdots, I_\beta)$，有 $R_{T,I}^\pi = \sum_{i=1}^{\beta} R_{T_\beta, I_i}^{\pi_i}$。由定理 1，我们逐步构造 $I_1, I_2, \cdots, I_\beta$（同时构造 $\pi_1, \pi_2, \cdots, \pi_\beta$），使得 $R_{T_\beta, I_i}^{\pi_i} \geq \frac{e^{-2}}{4} k \sqrt{T_\beta} \quad (\forall i \in [\beta])$。由此可构造 $I = (I_1, I_2, \cdots, I_\beta)$，使得 $R_{T,I}^\pi \geq \frac{e^{-2}}{4} k \sqrt{T_\beta} \cdot \beta = \frac{e^{-2}}{4} k \sqrt{T_\beta} = \Omega(k \cdot \sqrt{T \cdot d/k}) = \Omega(\sqrt{T d k})$。

改进的下界：（无意识对手）

定理 3（Li-Wang-Zhou’2024） 对任意 $n, T, d$ 满足 $n \leq 2^{d/2}$，$T \geq d (\log_2 n)^{1.1}$，对任意策略 $\pi$，存在一个具有 $d$ 维、$n$ 个臂、时长 $T$ 的线性 bandit 实例 $I$，使得 $R_{T,I}^\pi \geq \Omega(1) \cdot \sqrt{d T \log n \log(T/d)}$。

证明定理 3 的一个关键观察是关于椭圆势引理的紧致性。（即使当 $d=1$）

引理 4 对任意 $T \geq 1$，存在序列 $z_1, z_2, \cdots, z_T \in [0,1]$，若令 $V_0=1$，$V_t = V_{t-1} + z_t z_t^T$ 对 $t \geq 1$，则 $\sum_{t=1}^{T} \sqrt{z_t^2 / V_{t-1}} \geq \sqrt{\frac{T \ln T}{2}}$。

证明令 $S_t = \left(1 + \frac{\ln T}{2T}\right)^t$ 对所有 $t \geq 0$。令 $z_t = \sqrt{\frac{S_{t-1} \ln T}{2T}}$ 对所有 $t \geq 1$。注意 $z_t$ 关于 $t$ 单调递增。同时，$S_{T-1} = \left(1 + \frac{\ln T}{2T}\right)^{T-1} \leq \sqrt{T}$。因此，对所有 $t \leq T$，有 $0 \leq z_t \leq \sqrt{\frac{S_{T-1} \ln T}{2T}} \leq \sqrt{\frac{\sqrt{T} \ln T}{2}} \leq 1$，即 $z_t \in [0,1]$。此外，注意 $V_t = 1 + \sum_{j=1}^{t} z_j^2 = 1 + \frac{\ln T}{2T} \sum_{j=1}^{t} \left(1 + \frac{\ln T}{2T}\right)^{j-1} = \left(1 + \frac{\ln T}{2T}\right)^t = S_t$。因此， $\sum_{t=1}^{T} \sqrt{z_t^2 / V_{t-1}} = \sum_{t=1}^{T} \sqrt{V_{t-1}^{-1}} z_t = \sum_{t=1}^{T} \sqrt{\frac{\ln T}{2T}} = \sqrt{\frac{T \ln T}{2}}。$

改进的上界：（无意识对手）

定理 5（Li-Wang-Zhou’2024） 可设计一种策略，实现最小最大遗憾 $R_T \leq \mathrm{poly}(\log \log(nT)) \cdot \sqrt{d T (\log T) (\log n)}$。

Written on March 1, 2026

Online Learning 线性老虎机下界

线性老虎机 下界

线性老虎机下界