Statistical Inference 点估计

本文系统研究参数的点估计理论。首先介绍点估计量的基本概念，包括矩估计法、极大似然估计和贝叶斯估计三种经典方法，并讨论指数族的共轭先验结构。然后建立估计量的评价体系，从均方误差出发，引入无偏性、一致最小方差无偏估计（UMVUE）等概念，证明Cramér-Rao不等式、Rao-Blackwell定理和Lehmann-Scheffé定理等重要结果。接着介绍EM算法用于处理缺失数据下的最大似然估计问题。最后从决策理论角度研究损失函数最优性，包括贝叶斯规则和最小最大规则，为比较不同估计量提供理论依据。

定义点估计量

一个点估计量是样本的任意函数 $W(X_1,…,X_n)$；也就是说，任何统计量都是点估计量。

我们对点估计量的定义 $W(X_1,…,X_n)$ 可能看起来”不必要地模糊”，原因是不希望”排除任何候选者”。

注意：

估计量是样本 $X_1,…,X_n$ 的函数。
估计值是估计量的实现值，是 $x_1,…,x_n$ 的函数。

在许多情况下，存在一个明显或自然的点估计量候选者（例如，样本均值：总体均值的自然估计量）。
在复杂情况下：”直觉不仅可能抛弃我们，还可能误导我们。”

命题 MOM

矩估计法步骤（以单参数为例）

假设我们有一个总体分布，含有一个未知参数 $\theta$，从总体中抽取了一个简单随机样本 $X_1, X_2, \dots, X_n$。

步骤如下：

计算总体的前 $k$ 阶矩（通常是原点矩），并表示为参数 $\theta$ 的函数。
计算对应的样本矩。
将样本矩代替总体矩，建立方程。
解这个方程，得到参数 $\theta$ 的估计量 $\hat{\theta}$。

极大似然估计量（MLEs）

定义似然函数 Likelihood Function

设 $f(x | \theta)$ 表示样本 $X = (X_1, …, X_n)$ 的联合概率密度函数（pdf）或概率质量函数（pmf）。那么，当观察到 $X = x$ 时，由 $L(\theta \| x) = f(x \| \theta)$ 定义的关于 $\theta$ 的函数称为似然函数。

注意:

概率密度函数或概率质量函数 $f(x | \theta)$：$\theta$ 固定，$x$ 为变量。
似然函数 $L(\theta | x)$：$x$ 为观察到的样本点，$\theta$ 在所有可能的参数值上变化。

命题似然原理

如果 $x$ 和 $y$ 是两个样本点，且 $L(\theta \mid x)$ 与 $L(\theta \mid y)$ 成比例，即存在一个常数 $C(x, y)$，使得对于所有的 $\theta$，都有那么从 $x$ 和 $y$ 得出的结论应该是相同的。

寻找最大似然估计量（MLEs）：

首先假设我们可以找到一阶和二阶导数…

\[\frac{\partial}{\partial \theta_i} L(\theta \| x) = 0, \, i = 1, ..., k\]

一阶导数等于零 $\implies$ 局部或全局最小值/最大值, 拐点

但是，极值可能出现在边界上，因此必须单独检查边界。

定理极大似然估计的不变性

若 $\hat{\theta}$ 是 $\theta$ 的极大似然估计（MLE），则对于 $\theta$ 的任何函数 $\tau(\theta)$，$\tau(\hat{\theta})$ 是 $\tau(\theta)$ 的 MLE。

证明

令 $\eta$ 表示使 $L^* (\eta|x)$ 达到极大的值。我们需要证明 $L^* (\eta|x) = L^* [\tau(\hat{\theta})|x]$。根据前面的讨论，$L$ 的极大值与 $L^*$ 的极大值是一致的，因此我们有 $L^* (\eta\|x) = \sup_{\eta} \sup_{(\theta: \tau(\hat{\theta}) = \eta)} L(\theta\|x) \quad (L^* \text{ 的定义})$ $= \sup_{\theta} L(\theta\|x)$ $= L(\hat{\theta}\|x) \quad (\hat{\theta} \text{ 的定义})$

这里第二个等式成立的原因是累次极大化等于 $\theta$ 上的无条件极大化，而后者在 $\hat{\theta}$ 达到。此外， $L(\hat{\theta}\|x) = \sup_{(\theta: \tau(\hat{\theta}) = \tau(\hat{\theta}))} L(\theta\|x) \quad (\hat{\theta} \text{ 是 MLE})$ $= L^* [\tau(\hat{\theta})\|x] \quad (L^* \text{ 的定义})$

因此，以上等式串证明了 $L^* (\eta|x) = L^* [\tau(\hat{\theta})|x]$ 和 $\tau(\hat{\theta})$ 是 $\tau(\theta)$ 的 MLE。

MLE in exponential family

Bayes估计

定义 Bayes估计

$\pi(\theta)$ 先验分布 Prior Distribution
$f(\mathbf{x}\mid\theta)$ Sampling Distribution
$\pi(\theta \mid \mathbf{x})$ 后验分布 Posterior Distribution

\[\pi(\theta \mid \mathbf{x}) = \frac{f(\mathbf{x}, \theta)}{f(\mathbf{x})} = \frac{f(\mathbf{x}\mid \theta)\pi(\theta)} {\int_\theta f(\mathbf{x}\mid \theta) \pi(\theta) \, d \theta}\]

定义共轭族

设 $\mathcal{F}$ 是概率密度函数或概率质量函数 $f(x \mid \theta)$ 的类（以 $\theta$ 为指标）。称一个先验分布类 $\Pi$ 为 $\mathcal{F}$ 的一个共轭族（conjugate family），如果对所有的 $f \in \mathcal{F}$，所有的 $\Pi$ 中的先验分布和所有的 $x \in X$，其后验分布仍在 $\Pi$ 中。

Distribution of $X$	Parameter	Conjugate prior distribution
Binomial	Prob. of success	Beta
Poisson	Mean	Gamma
Exponential	Reciprocal of mean	Gamma
Normal	Mean (variance known)	Normal
Normal	Variance (mean known)	Inverse Gamma

指数族的共轭族

Exponential Family Representation

An exponential family of distributions is a class of probability distributions whose probability mass function (pmf) or probability density function (pdf) can be written in the following canonical form:

\[f(x \mid \boldsymbol{\eta}) = h(x) c^*(\boldsymbol{\eta}) \exp(\boldsymbol{\eta}^T \mathbf{t}(x)),\]

where:

$h(x)$: A base measure that depends only on $x$.
$\mathbf{t}(x) = (t_1(x), \dots, t_k(x))^T$: A vector of sufficient statistics.
$\boldsymbol{\eta} = (\eta_1, \dots, \eta_k)^T$: The natural parameters.
$c^*(\boldsymbol{\eta})$: The normalizing constant, ensuring that $f(x \mid \boldsymbol{\eta})$ integrates to 1.

The normalizing constant $c^*(\boldsymbol{\eta})$ is defined as:

\[c^*(\boldsymbol{\eta}) = \left[ \int_{\infty} h(x) \exp(\boldsymbol{\eta}^T \mathbf{t}(x)) \, dx \right]^{-1}.\]

To simplify notation, we define the log-partition function $A(\boldsymbol{\eta})$ as:

\[A(\boldsymbol{\eta}) = \log \left[ \int_{\infty} h(x) \exp(\boldsymbol{\eta}^T \mathbf{t}(x)) \, dx \right].\]

Using this, the pdf can be rewritten as:

\[f(x \mid \boldsymbol{\eta}) = h(x) \exp(\boldsymbol{\eta}^T \mathbf{t}(x) - A(\boldsymbol{\eta})).\]

Likelihood Function for IID Data

Suppose we have $n$ independent and identically distributed (i.i.d.) observations $X_1, X_2, \dots, X_n$ from the exponential family with pdf $f(x \mid \boldsymbol{\eta})$. The joint likelihood function is:

\[f(\mathbf{x} \mid \boldsymbol{\eta}) = \prod_{i=1}^n f(x_i \mid \boldsymbol{\eta}).\]

Substituting the exponential family form of $f(x_i \mid \boldsymbol{\eta})$:

\[f(\mathbf{x} \mid \boldsymbol{\eta}) = \prod_{i=1}^n \left[ h(x_i) \exp(\boldsymbol{\eta}^T \mathbf{t}(x_i) - A(\boldsymbol{\eta})) \right].\]

This can be simplified as:

\[f(\mathbf{x} \mid \boldsymbol{\eta}) = \left( \prod_{i=1}^n h(x_i) \right) \exp \left( \boldsymbol{\eta}^T \sum_{i=1}^n \mathbf{t}(x_i) - n A(\boldsymbol{\eta}) \right).\]

Thus, the likelihood function is:

\[f(\mathbf{x} \mid \boldsymbol{\eta}) = \left[ \prod_{i=1}^n h(x_i) \right] \cdot \exp \left( \boldsymbol{\eta}^T \sum_{i=1}^n \mathbf{t}(x_i) - n A(\boldsymbol{\eta}) \right).\]

Conjugate Prior

A conjugate prior for an exponential family is a prior distribution whose functional form remains the same after observing data. To construct such a prior, we mimic the form of the likelihood function as a function of the natural parameter $ \boldsymbol{\eta} $.

The conjugate prior is given by:

\[\pi(\boldsymbol{\eta} \mid \boldsymbol{\tau}, n_0) = H(\boldsymbol{\tau}, n_0) \exp \left( \boldsymbol{\eta}^T \boldsymbol{\tau} - n_0 A(\boldsymbol{\eta}) \right),\]

where:

$ H(\boldsymbol{\tau}, n_0) $: A normalizing constant that ensures $ \pi(\boldsymbol{\eta} \mid \boldsymbol{\tau}, n_0) $ is a valid probability density function.
$\boldsymbol{\tau}$: A vector of hyperparameters.
$n_0$: A scalar hyperparameter.

The prior mimics the likelihood’s dependence on $ \boldsymbol{\eta} $ through the term $\exp(\boldsymbol{\eta}^T \boldsymbol{\tau} - n_0 A(\boldsymbol{\eta}))$.

Posterior Distribution

Given the prior $\pi(\boldsymbol{\eta} \mid \boldsymbol{\tau}, n_0)$ and the likelihood $f(\mathbf{x} \mid \boldsymbol{\eta})$, the posterior distribution is proportional to their product:

\[\pi(\boldsymbol{\eta} \mid \mathbf{x}, \boldsymbol{\tau}, n_0) \propto \pi(\boldsymbol{\eta} \mid \boldsymbol{\tau}, n_0) f(\mathbf{x} \mid \boldsymbol{\eta}).\]

Substituting the expressions for the prior and likelihood:

\[\pi(\boldsymbol{\eta} \mid \mathbf{x}, \boldsymbol{\tau}, n_0) \propto \left[ H(\boldsymbol{\tau}, n_0) \exp \left( \boldsymbol{\eta}^T \boldsymbol{\tau} - n_0 A(\boldsymbol{\eta}) \right) \right] \cdot \left[ \exp \left( \boldsymbol{\eta}^T \sum_{i=1}^n \mathbf{t}(x_i) - n A(\boldsymbol{\eta}) \right) \right].\]

Combining the terms:

\[\pi(\boldsymbol{\eta} \mid \mathbf{x}, \boldsymbol{\tau}, n_0) \propto \exp \left( \boldsymbol{\eta}^T \boldsymbol{\tau} + \boldsymbol{\eta}^T \sum_{i=1}^n \mathbf{t}(x_i) - (n_0 + n) A(\boldsymbol{\eta}) \right).\]

This can be rewritten as:

\[\pi(\boldsymbol{\eta} \mid \mathbf{x}, \boldsymbol{\tau}, n_0) \propto \exp \left( \boldsymbol{\eta}^T \left( \boldsymbol{\tau} + \sum_{i=1}^n \mathbf{t}(x_i) \right) - (n_0 + n) A(\boldsymbol{\eta}) \right).\]

Notice that the posterior has the same functional form as the prior, but with updated hyperparameters:

$\boldsymbol{\tau} \to \boldsymbol{\tau} + \sum_{i=1}^n \mathbf{t}(x_i),$ $n_0 \to n_0 + n.$

Thus, the posterior is also a member of the same exponential family, confirming that the prior is conjugate.

Original Form of Exponential Families

Exponential families can also be expressed in terms of the original parameters $\boldsymbol{\theta}$ instead of the natural parameters $\boldsymbol{\eta}$. In this case, the natural parameters $\eta_i$ are related to the original parameters $\theta_i$ through a transformation $\eta_i = w_i(\boldsymbol{\theta})$. The conjugate prior can be derived similarly by replacing $\eta_i$ with $w_i(\boldsymbol{\theta})$ in the expressions above.

Summary

Exponential Family: A probability distribution can be written in the form $f(x \mid \boldsymbol{\eta}) = h(x) \exp(\boldsymbol{\eta}^T \mathbf{t}(x) - A(\boldsymbol{\eta}))$.
Likelihood: For i.i.d. data, the likelihood is $f(\mathbf{x} \mid \boldsymbol{\eta}) = \left[ \prod_{i=1}^n h(x_i) \right] \exp \left( \boldsymbol{\eta}^T \sum_{i=1}^n \mathbf{t}(x_i) - n A(\boldsymbol{\eta}) \right)$.
Conjugate Prior: A prior of the form $\pi(\boldsymbol{\eta} \mid \boldsymbol{\tau}, n_0) = H(\boldsymbol{\tau}, n_0) \exp \left( \boldsymbol{\eta}^T \boldsymbol{\tau} - n_0 A(\boldsymbol{\eta}) \right)$ ensures that the posterior has the same functional form.
Posterior: The posterior updates the hyperparameters as $\boldsymbol{\tau} \to \boldsymbol{\tau} + \sum_{i=1}^n \mathbf{t}(x_i)$ and $n_0 \to n_0 + n$.

The final answer is:

\[\boxed{\pi(\boldsymbol{\eta} \mid \mathbf{x}, \boldsymbol{\tau}, n_0) \propto \exp \left( \boldsymbol{\eta}^T \left( \boldsymbol{\tau} + \sum_{i=1}^n \mathbf{t}(x_i) \right) - (n_0 + n) A(\boldsymbol{\eta}) \right)}\]

估计量的评价方法

定义 MSE

Mean Squared Error $\operatorname{E}\_\theta (W-\theta)^2 = \operatorname{Var}[W] + (\operatorname{E} W-\theta)^2 = \operatorname{Var}[W] + (\operatorname{Bias}[W])^2$

定义最佳无偏估计量, BUE, UMVUE

估计量 $W^\ast$ 称为 $\tau(\theta)$ 的最佳无偏估计量（best unbiased estimator），如果它满足：

\[\mathbb{E}\_\theta W^* = \tau(\theta)\]

对所有 $\theta$ 成立，并且对任何一个其他的满足 $\mathbb{E}_\theta(W) = \tau(\theta)$ 的估计量 $W$，都有：

\[\operatorname{Var}\_\theta W^* \leq \operatorname{Var}\_\theta W\]

对所有 $\theta$ 成立。$W^*$ 也称为 $\tau(\theta)$ 的一致最小方差无偏估计量（uniform minimum variance unbiased estimator，简记 UMVUE）。

定理 Cramér-Rao 不等式

设 $X_1, \dots, X_n$ 是具有概率密度函数 $f(x|\theta)$ 的样本，令 $W(X) = W(X_1, \dots, X_n)$ 是任意的一个估计量，满足

\[\frac{\mathrm{d}}{\mathrm{d}\theta} \mathbb{E}\_\theta W(\mathbf{X}) = \int_x \frac{\partial}{\partial \theta}[W(x)f(x\|\theta)] \, \mathrm{d}x\]

和

\[\operatorname{Var}\_\theta W(\mathbf{X}) < \infty\]

则有

\[\operatorname{Var}\_\theta(W(\mathbf{X})) \geqslant \frac{\left(\frac{\mathrm{d}}{\mathrm{d}\theta} \mathbb{E}\_\theta W(\mathbf{X})\right)^2}{\mathbb{E}\_\theta\left(\left(\frac{\partial}{\partial \theta} \log f(\mathbf{X} \mid \theta)\right)^2\right)}\]

其中 $I(\theta): = \mathbb{E}_\theta\left(\left(\frac{\partial}{\partial \theta} \log f(\mathbf{X} \mid\theta)\right)^2\right)$ 是Fisher信息量。

证明

这个定理的证明手法简洁漂亮，它是 Cauchy-Schwarz 不等式的一次聪明的运用，或用统计的语言说，证明利用了这样的事实：对于任意两个随机变量 $X$ 和 $Y$，有

\[[\text{Cov}(X, Y)]^2 \leq (\text{Var}X)(\text{Var}Y)\]

重新安排一下式 (7.3.6)，我们就可以得到 $X$ 方差的一个下界，

\[\text{Var}X \geq \frac{[\text{Cov}(X, Y)]^2}{\text{Var}Y}.\]

这个定理证明的聪明之处从 $X$ 和 $Y$ 的选择开始。把 $X$ 选为估计量 $W(\mathbf{X})$ 而 $Y$ 选为 $\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)$，然后应用 Cauchy-Schwarz 不等式。

首先注意有

\[\begin{aligned} \frac{\mathrm{d}}{\mathrm{d}\theta}\mathbb{E}\_\theta W(\mathbf{X}) &= \int_{x} W(x)\left[\frac{\partial}{\partial\theta}f(\mathbf{x} \mid \theta)\right]\mathrm{d}x \\ &= \mathbb{E}\_\theta\left[W(\mathbf{X})\frac{\frac{\partial}{\partial\theta}f(\mathbf{X} \mid \theta)}{f(\mathbf{X} \mid \theta)}\right] \quad \text{(前式乘以 $f(\mathbf{X} \mid \theta)/f(\mathbf{X} \mid \theta)$)} \\ &= \mathbb{E}\_\theta\left[W(\mathbf{X})\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right] \quad \text{(对数的性质)} \end{aligned}\]

这暗示我们应考虑 $W(\mathbf{X})$ 与 $\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)$ 之间的协方差，为了使它化为一个协方差，需要减去两期望值的乘积，于是我们来计算 $\mathbb{E}_\theta\left(\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right)$。假如我们在式 (7.3.7) 中特别地取 $W(x) = 1$，就得到

\[\mathbb{E}\_\theta\left(\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right) = \frac{\mathrm{d}}{\mathrm{d}\theta}\mathbb{E}\_\theta[1] = 0\]

因此 $\text{Cov}_\theta\left(W(\mathbf{X}), \frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right)$ 就等于乘积的期望，于是由式 (7.3.7) 和式 (7.3.8)，就得到

\[\text{Cov}\_\theta\left(W(\mathbf{X}), \frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right) = \mathbb{E}\_\theta\left(W(\mathbf{X})\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right) = \frac{\mathrm{d}}{\mathrm{d}\theta}\mathbb{E}\_\theta W(\mathbf{X})\]

同样，因为 $\mathbb{E}_\theta\left(\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right) = 0$，我们有

\[\text{Var}\_\theta\left(\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right) = \mathbb{E}\_\theta\left(\left(\frac{\partial}{\partial\theta}\log f(\mathbf{X} \mid \theta)\right)^2\right)\]

对式 (7.3.9) 和式 (7.3.10) — 并使用 Cauchy-Schwarz 不等式，我们就得到

\[\text{Var}\_\theta(W(\mathbf{X})) \geq \frac{\left(\frac{\mathrm{d}}{\mathrm{d}\theta}\mathbb{E}\_\theta W(\mathbf{X})\right)^2}{\mathbb{E}\_\theta\left(\left(\frac{\partial}{\partial \theta} \log f(\mathbf{X} \mid \theta)\right)^2\right)}.\]

推论 i.i.d. 情形

如果满足定理 7.3.9 的假设，并且进一步假设 $X_1, …, X_n$ 是独立同分布的随机变量，其概率密度函数为 $f(x | \theta)$，那么有

\[\operatorname{Var}\_\theta W(\mathbf{X}) \geq \frac{\left( \frac{d}{d\theta} \mathbb{E}\_\theta W(\mathbf{X}) \right)^2}{n \mathbb{E}\_\theta \left( \left( \frac{\partial}{\partial \theta} \log f(X \mid \theta) \right)^2 \right)}\]

例子错误使用情形

设 $X_1, \ldots, X_n$ 是独立同分布的随机变量，其概率密度函数为： $f(x \mid \theta) = \frac{1}{\theta}, \quad 0 < x < \theta \quad \text{(注意：危险！)}$ 如果错误地应用克拉默-劳下界（Cramér-Rao lower bound）：

对于一个无偏估计量 $W(X)$，满足 $\operatorname{E}_\theta[W(X)] = \theta$： $\operatorname{Var}\_\theta W(X) \geq \frac{1}{n \operatorname{E}\_\theta \left( \left( \frac{\partial}{\partial \theta} \log f(X \mid \theta) \right)^2 \right)} = \frac{1}{n \cdot \frac{1}{\theta^2}} = \frac{\theta^2}{n}.$

现在让我们寻找一个方差更小的无偏估计量：考虑 $Y = X_{(n)}$（最大顺序统计量）。

\[\operatorname{E}\_\theta(Y) = \int_0^\theta y \frac{n y^{n-1}}{\theta^n} \, dy = \int_0^\theta \frac{n y^n}{\theta^n} \, dy = \frac{n}{n+1} \theta \implies \operatorname{E}\_\theta \left[ \frac{n+1}{n} Y \right] = \theta.\]

$\operatorname{E}_\theta \left[ \frac{n+1}{n} Y \right]$ 是一个无偏估计量。 $\operatorname{Var} \left[ \frac{n+1}{n} Y \right] = \left( \frac{n+1}{n} \right)^2 \operatorname{Var}[Y] = \cdots = \frac{\theta^2}{n(n+2)}.$

然而，显然有： $\operatorname{Var} \left[ \frac{n+1}{n} Y \right] = \frac{\theta^2}{n(n+2)} < \frac{\theta^2}{n} = \text{假设的克拉默-劳下界？！！}$

为什么克拉默-劳下界不适用于这个概率密度函数？

$\frac{d}{d\theta} \int_0^\theta h(x) f(x \mid \theta) \, dx = \frac{d}{d\theta} \int_0^\theta h(x) \frac{1}{\theta} \, dx$ $= \int_0^\theta h(x) \frac{d}{d\theta} \left( \frac{1}{\theta} \right) \, dx + \frac{h(\theta)}{\theta}$ $= \int_0^\theta h(x) \frac{d}{d\theta} f(x \mid \theta) \, dx + \frac{h(\theta)}{\theta}$ $\neq \int_0^\theta h(x) \frac{d}{d\theta} f(x \mid \theta) \, dx,$ 除非 $\frac{h(\theta)}{\theta} = 0$ 对所有 $\theta$ 成立。

推论达到下界

设 $X_1, \dots, X_n$ 是 iid 的，具有概率密度函数 $f(x|\theta)$，其 $f(x|\theta)$ 满足 Cramér-Rao 定理的条件。令 $L(\theta\|x) = \prod_{i=1}^n f(x_i\|\theta)$ 表示似然函数。如果 $W(X) = W(X_1, \dots, X_n)$ 是 $\tau(\theta)$ 的任意一个无偏估计量，则 $W(X)$ 达到 Cramér-Rao 下界当且仅当

\[a(\theta)[W(x) - \tau(\theta)] = \frac{\partial}{\partial\theta}\log L(\theta\|x)\]

对某一函数 $a(\theta)$ 成立。

定理 Rao-Blackwell定理

设 $W$ 是 $\tau(\theta)$ 的任意一个无偏估计量，而 $T$ 是关于 $\theta$ 的一个充分统计量。定义 $\phi(T) = \mathbb{E}(W \mid T)$。则 $\mathbb{E}_\theta \phi(T) = \tau(\theta)$ 而且 $\operatorname{Var}_\theta \phi(T) \leq \operatorname{Var}_\theta W$ 对所有 $\theta$ 成立；即是说 $\phi(T)$ 是 $\tau(\theta)$ 的一个一致较优的无偏估计量。

注

Rao-Blackwell 定理的核心思想是：通过使用充分统计量 $T$ 的信息，我们可以”过滤掉”样本中无关的噪声，从而得到一个更精确的估计量。具体来说，条件期望 $\mathbb{E}(W \mid T)$ 利用了 $T$ 所包含的全部信息，而丢弃了样本中与 $\theta$ 无关的部分，从而降低了估计量的方差。

命题 BUE 的唯一性

如果 $W$ 是 $\tau(\theta)$ 的一个最佳无偏估计量，则 $W$ 是唯一的.

证明

假如 $W’$ 是另一个最佳无偏估计量，考虑估计量 $W^* = \frac{1}{2}(W + W’)$. 注意到 $\mathbb{E}_\theta W^* = \tau(\theta)$ 并且 $\begin{aligned} \operatorname{Var}\_\theta W^* &= \operatorname{Var}\_\theta \left( \frac{1}{2}W + \frac{1}{2}W' \right) \\ &= \frac{1}{4}\operatorname{Var}\_\theta W + \frac{1}{4}\operatorname{Var}\_\theta W' + \frac{1}{2}\operatorname{Cov}\_\theta(W, W') \\ &\leq \frac{1}{4}\operatorname{Var}\_\theta W + \frac{1}{4}\operatorname{Var}\_\theta W' + \frac{1}{2}\big[\operatorname{Var}\_\theta W \cdot \operatorname{Var}\_\theta W'\big]^{1/2} \quad \text{(Cauchy-Schwarz 不等式)} \\ &= \operatorname{Var}\_\theta W \quad \text{($\operatorname{Var}\_\theta W = \operatorname{Var}\_\theta W'$)} \end{aligned}$ 但如果以上不等式是严格的，则与 $W$ 的最佳无偏性矛盾，所以上边式子必须对所有 $\theta$ 都是等式. 因为上边的不等式是 Cauchy-Schwarz 不等式的一个运用，所以只有在 $W’ = a(\theta)W + b(\theta)$ 时才有等号成立. 现在使用协方差的性质，我们有 $\begin{aligned} \operatorname{Cov}\_\theta(W, W') &= \operatorname{Cov}\_\theta\big[W, a(\theta)W + b(\theta)\big] \\ &= \operatorname{Cov}\_\theta\big[W, a(\theta)W\big] \\ &= a(\theta)\operatorname{Var}\_\theta W \end{aligned}$ 但是由于在式 (7.3.14) 中等号成立，从而 $\operatorname{Cov}_\theta(W, W’) = \operatorname{Var}_\theta W$. 所以 $a(\theta) = 1$, 而且由于 $\mathbb{E}_\theta W’ = \tau(\theta)$, 因此一定有 $b(\theta) = 0$, 于是 $W = W’$, 这就证明了 $W$ 是唯一的.

命题

如果 $E_\theta W = \tau(\theta)$，那么 $W$ 是 $\tau(\theta)$ 的最佳无偏估计量当且仅当 $W$ 与所有零的无偏估计量不相关。

定理完全性和最佳无偏性

设 $ T $ 是一个参数 $ \theta $ 的完全充分统计量，而 $ \phi(T) $ 是任意的一个仅基于 $ T $ 的估计量。则 $ \phi(T) $ 是其期望值的唯一最佳无偏估计量。

定理 Lehmann-Scheffé Theorem

设 $ T(X) $ 是参数 $ \theta $ 的一个充分且完全统计量，$ U(X) $ 是 $ \theta $ 的一个无偏估计量。那么，基于 $ T(X) $ 构造的条件期望 $ \mathbb{E}[U(X) \mid T(X)] $ 是 $ \theta $ 的UMVUE。

Unbiased estimators based on complete sufficient statistics are unique.

EM算法

定义基本记号

完整数据 (Complete Data): 记为 $ x $，表示完整的数据集。完整数据包括观测到的数据 $ y $ 和缺失数据或隐变量 $ z $，即： $x = (y, z)$
观测数据 (Observed Data): 记为 $ y $，表示实际观测到的数据。
缺失数据 (Missing Data): 记为 $ z $，表示未观测到的部分（可能是隐变量或缺失值）。
参数: 记为 $ \theta $，表示需要估计的模型参数。

定义缺失数据机制

$R$ 被定义为响应指示向量（Response Indicator Vector），用于描述数据是否缺失。具体定义如下： $ R $ 是一个向量，其每个元素 $ R_i $ 表示第 $ i $ 个观测值是否被观测到：

$ R_i = 1 $：表示第 $ i $ 个观测值 $ X_i $ 被观测到。
$ R_i = 0 $：表示第 $ i $ 个观测值 $ X_i $ 缺失。那么，根据 $ R $ 的条件分布，缺失数据机制可以分为以下三类：
完全随机缺失 (MCAR): 缺失与数据本身无关： $p(R \| Y, Z, \xi) = p(R \| \xi), \quad \text{即 } R \perp (Z, Y)$
随机缺失 (MAR): 缺失仅与观测数据有关，与缺失数据无关： $p(R \| Y, Z, \xi) = p(R \| Y, \xi), \quad \text{即 } R \perp Z \| Y$
非随机缺失 (MNAR): 缺失与缺失数据相关： $R \not\perp Z \| Y$

命题参数独立性

参数的独立性指的是：

模型中的两个参数集 $\theta$ 和 $\xi$ 是独立的，即它们的联合参数空间是各自参数空间的乘积。
数学上可以表示为： $\Theta \times \Xi = \{(\theta, \xi) : \theta \in \Theta, \xi \in \Xi\}$

其中：

$\theta$ 是我们感兴趣的模型参数（如分布的均值、方差等）。
$\xi$ 是与缺失数据机制相关的参数（如缺失概率模型的参数）。

命题 The missing data mechanism is ignorable if MAR+distinctness

假设数据的生成过程如下：

完整数据 $X = (Y, Z)$ 的联合分布为 $f(X | \theta)$。
观测数据 $Y$ 的边际分布为 $g(Y | \theta)$。
缺失数据机制由 $p(R | Y, Z, \xi)$ 描述。

命题 EM算法

EM算法的一般步骤

EM算法（Expectation-Maximization Algorithm）是一种迭代优化方法，用于处理不完全数据的最大似然估计问题。以下是EM算法的一般步骤：

初始化: 选择一个初始参数值 $ \theta^{(0)} $。
迭代过程: 对于第 $ (t+1) $ 次迭代，EM算法包括以下两个步骤： a. E步（期望步，Expectation Step）在E步中，计算完整数据对数似然的期望值，给定观测数据 $ y $ 和当前参数估计 $ \theta^{(t)} $： $Q(\theta \| \theta^{(t)}) = \mathbb{E}[\log f(y, Z \| \theta) \| y, \theta^{(t)}]$ 其中：
- $ f(y, Z | \theta) $ 是完整数据的联合概率密度函数。
- $ Z $ 是缺失数据或隐变量。
- 条件分布 $ f(Z | y, \theta^{(t)}) $ 表示在观测数据 $ y $ 和当前参数估计 $ \theta^{(t)} $ 下，缺失数据 $ Z $ 的分布。具体计算公式为： $Q(\theta \| \theta^{(t)}) = \int (\log f(y, z \| \theta)) f(z \| y, \theta^{(t)}) \, dz$ b. M步（最大化步，Maximization Step）在M步中，最大化E步得到的目标函数 $ Q(\theta | \theta^{(t)}) $，以更新参数估计： $\theta^{(t+1)} = \arg\max_\theta Q(\theta \| \theta^{(t)})$
迭代重复执行E步和M步，直到参数估计收敛，即： $\theta^{(t+1)} \approx \theta^{(t)}$

损失函数最优性

定义动作空间

考虑一个统计模型，其中观测向量 $X \sim f(x | \theta), \theta \in \Theta$，需要对参数 $\theta$ 做出决策。允许的决策集合称为动作空间。

动作空间 $\mathcal{A}$ 是我们能够考虑采取的一系列动作、决策或声明的集合。在点估计问题中，通常 $\mathcal{A}$ 等于 $\Theta$。

定义损失函数

比起动作空间的选择，损失函数的选择更为重要。在目标为估计参数 $\theta$ 的估计问题中，我们可以定义一个函数 $L: \Theta \times \mathcal{A} \to \mathbb{R}^+$。损失函数是一个非负函数，通常随着动作 $a$ 与参数 $\theta$ 之间的距离增大而增大。

绝对损失函数 (Absolute Loss Function): $L(\theta, a) = \|a - \theta\|$
平方损失函数 (Squared Loss Function): $L(\theta, a) = (a - \theta)^2$

定义风险函数

对于给定的参数 $\theta$ 的估计量 $\delta(X)$，我们使用风险函数来衡量估计量的质量： $R(\theta, \delta) = \mathbb{E}\_\theta L(\theta, \delta(X))$ 在给定 $\delta$ 的情况下，风险函数是未知参数 $\theta$ 的函数。

Bayes’ Rule

另一种比较风险函数的主要方法是通过全局标准，而不是逐点比较。例如，贝叶斯准则。

定义贝叶斯风险

$R(\theta, \delta) = \mathbb{E}[L(\theta, \delta(X)) | \theta]$，即在使用估计量 $\delta$ 且参数值为 $\theta$ 的情况下，期望的损失。从贝叶斯的观点来看，参数 $\theta$ 具有分布，我们可以计算随着 $\theta$ 变化时我们平均会损失多少。

考虑一个先验分布 $\pi(\theta)$，我们可以利用这个先验分布来计算平均风险： $\int_\Theta R(\theta, \delta) \pi(\theta) d\theta$ 这被称为 贝叶斯风险 (Bayesian Risk)，它是对所有参数 $\theta$ 的平均损失。对风险函数取平均值可以得到一个数值，用于评估估计量相对于给定损失函数的性能。

使得贝叶斯风险最小化的估计量称为 贝叶斯规则 (Bayes Rule)，相对于先验分布 $\pi(\theta)$。

当 $X \sim f(x | \theta)$ 且 $\theta \sim \pi(\theta)$ 时，贝叶斯风险为： $\int_\Theta R(\theta, \delta) \pi(\theta) d\theta = \int_\Theta \left( \int_{\mathcal{X}} L(\theta, \delta(x)) f(x \| \theta) dx \right) \pi(\theta) d\theta$

现在我们将 $f(x | \theta) \pi(\theta)$ 写成 $\pi(\theta | x) m(x)$，其中 $m(x)$ 是 $X$ 的边缘分布： $\int_\Theta R(\theta, \delta) \pi(\theta) d\theta = \int_{\mathcal{X}} \left( \int_\Theta L(\theta, \delta(x)) \pi(\theta \| x) d\theta \right) m(x) dx$

$\int_\Theta L(\theta, \delta(x)) \pi(\theta | x) d\theta$ 被称为 后验期望损失，它仅是 $x$ 的函数，而不是 $\theta$ 的函数。因此，对于每个 $x$，如果我们选择动作 $\delta(x)$ 来最小化后验期望损失，那么我们将最小化贝叶斯风险。

例子 Two Bayes rules

Consider a point estimation problem for a real-valued parameter $\theta$.

For squared error loss, the posterior expected loss is $\int_{\Theta} (\theta - a)^2 \pi(\theta \mid x) d\theta = \mathbb{E}[(\theta - a)^2 \mid X = x]$ The expected value is minimized by $\delta^\pi(x) = \mathbb{E}(\theta \mid x)$.
For absolute error loss, the posterior expected loss is $\int_{\Theta} \|\theta - a\| \pi(\theta \mid x) d\theta = \mathbb{E}[\|\theta - a\| \mid X = x]$ The expected value is minimized by $\delta^\pi(x) = \text{median of } \pi(\theta \mid x)$.

Minimax Rule

定义最小最大规则 minimax rule

另一种全局标准是比较风险函数时考虑最坏情况。

估计量（或过程、决策规则）的最坏可能风险由 $\sup_\theta R(\theta, \delta)$ 给出。使用 $\sup_\theta R(\theta, \delta)$ 作为比较两个估计量 $\delta$ 和 $\delta’$ 的标准，我们偏好 $\delta$ 而非 $\delta’$，当且仅当： $\sup_\theta R(\theta, \delta) < \sup_\theta R(\theta, \delta').$

令 $\mathfrak{D}$ 表示所有待考虑的决策过程集合，具有以下性质的程序 $\delta^*$： $\sup_\theta R(\theta, \delta^*) = \inf_{\delta \in \mathfrak{D}} \sup_\theta R(\theta, \delta)$ 被称为 最小最大规则（最小化最大风险）。

这一最优性准则非常保守，旨在最大程度地保护免受最坏情况的发生。

Written on January 10, 2026