Statistical Inference 概率论基础

本文系统研究统计推断所需的概率论基础知识。首先介绍独立随机变量的定义和性质，这是理解样本分布的基础。然后详细研究各种重要概率分布，包括Gamma分布、正态分布、Beta分布、指数分布、Poisson分布、卡方分布和t分布，推导它们的概率密度函数、数字特征和矩生成函数。接着引入指数族的概念，这是统计推断中最重要的分布族。最后介绍Delta方法和次序统计量理论，并证明正态分布样本均值和样本方差独立性这一基本结果，这些内容为后续的统计推断理论奠定坚实基础。

概率论基础

独立随机变量

定义独立随机变量

设 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 为一列随机向量，其联合概率密度（或质量）函数为 $f(\mathbf{x}_1, \ldots, \mathbf{x}_n)$，$\mathbf{X}_i$ 的边缘概率密度（或质量）函数为 $f_{\mathbf{X}_i}(\mathbf{x}_i)$。如果对任意 $(\mathbf{x}_1, \ldots, \mathbf{x}_n)$，都有 $f(\mathbf{x}\_1, \ldots, \mathbf{x}\_n) = f_{\mathbf{X}\_1}(\mathbf{x}\_1) \cdot \ldots \cdot f_{\mathbf{X}\_n}(\mathbf{x}\_n) = \prod_{i=1}^{n} f_{\mathbf{X}\_i}(\mathbf{x}\_i)$ 则称 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是相互独立的随机向量（mutually independent vectors）。如果每个 $\mathbf{X}_i$ 都是一维的，则称 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是相互独立的随机变量（mutually independent variables）。

命题

设 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是一列随机向量，则 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 相互独立当且仅当存在函数 $g_i(\mathbf{x}_i)$，$i=1, \ldots, n$，使得 $(\mathbf{X}_1, \ldots, \mathbf{X}_n)$ 的联合概率密度（或质量）函数可以写为： $f(\mathbf{x}\_1, \ldots, \mathbf{x}\_n) = g_1(\mathbf{x}\_1) \cdot \ldots \cdot g_n(\mathbf{x}\_n)$

命题

设 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是一列相互独立的随机向量，$g_i(\mathbf{x}_i)$ 是 $\mathbf{x}_i$ 的一元函数，$i=1, \ldots, n$。则随机变量 $U_i = g_i(\mathbf{X}_i)$，$i=1, \ldots, n$ 相互独立。

Distributions

定理概率分布的变量变换公式

设 $X$ 是一个连续型随机变量，其概率密度函数 (PDF) 为 $f_X(x)$。设 $Y = g(X)$，其中函数 $g(x)$ 在 $X$ 的取值范围内是严格单调（即严格递增或严格递减）且可导的。假设 $g(x)$ 的反函数为 $x = h(y)$（即 $h(y) = g^{-1}(y)$）。

则随机变量 $Y$ 的概率密度函数 $f_Y(y)$ 为： $f_Y(y) = f_X(h(y)) \left\| \frac{d}{dy} h(y) \right\|$ 或者，更详细地表示为： $f_Y(y) = f_X(g^{-1}(y)) \left\| \frac{d}{dy} g^{-1}(y) \right\|$ 其中， $y$ 的取值范围是 $X$ 的取值范围通过函数 $g(x)$ 映射后得到的范围。

例子 Gamma Distribution

Gamma分布表示为： $\text{Gamma}(\alpha, \beta)$

Gamma分布的概率密度函数（PDF）定义为： $P(X = x \mid \alpha, \beta) = \frac{1}{\Gamma(\alpha)\beta^{\alpha}} x^{\alpha-1} e^{-x/\beta}, \quad 0 \leq x < \infty$

其中：

$x$ 是随机变量（$x \geq 0$），
$\alpha$ 是形状参数（$\alpha > 0$），
$\beta$ 是尺度参数（$\beta > 0$），
$\Gamma(\alpha)$ 是Gamma函数，定义为： $\Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} \, dt$

均值与方差： $\text{均值: } \mathbb{E}[X] = \alpha \beta$ $\text{方差: } \operatorname{Var}(X) = \alpha \beta^2$

矩生成函数（MGF）： Gamma分布的矩生成函数（MGF）为： $M_X(t) = \left( \frac{1}{1 - \beta t} \right)^\alpha, \quad t < \frac{1}{\beta}$

Gamma函数的性质： Gamma函数 $\Gamma(\alpha)$ 具有以下性质：

对于 $\alpha > 0$，有 $\Gamma(\alpha+1) = \alpha \Gamma(\alpha)$。
对于任意正整数 $n > 0$，有 $\Gamma(n) = (n-1)!$。

例子 Normal Distribution

正态分布表示为： $\mathcal{N}(\mu, \sigma^2)$

正态分布的概率密度函数（PDF）定义为： $f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty$

其中：

$x$ 是随机变量，
$\mu$ 是均值（决定分布的中心位置），
$\sigma^2$ 是方差（决定分布的宽度，$\sigma > 0$）。

性质：

正态分布是对称的，其峰值位于 $\mu$。
标准正态分布是正态分布的一种特殊情况，记作 $\mathcal{N}(0, 1)$，即 $\mu = 0$ 且 $\sigma^2 = 1$。
如果 $X \sim \mathcal{N}(\mu, \sigma^2)$，则标准化后的随机变量 $Z = \frac{X - \mu}{\sigma}$ 服从标准正态分布 $\mathcal{N}(0, 1)$。

均值与方差： $\text{均值: } \mathbb{E}[X] = \mu$ $\text{方差: } \operatorname{Var}(X) = \sigma^2$

矩生成函数（MGF）： 正态分布的矩生成函数（MGF）为： $M_X(t) = \exp\left(\mu t + \frac{\sigma^2 t^2}{2}\right), \quad t \in \mathbb{R}$

例子 Beta 分布

Beta分布是一种定义在区间 $[0, 1]$ 上的连续概率分布，通常用于建模随机变量在有限区间内的行为。Beta分布的概率密度函数（PDF）定义为：

\[P(X = x \mid \alpha, \beta) = \frac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1}, \quad 0 \leq x \leq 1\]

其中：

$x$ 是随机变量（$0 \leq x \leq 1$），
$\alpha$ 是形状参数（$\alpha > 0$），
$\beta$ 是形状参数（$\beta > 0$），
$B(\alpha, \beta)$ 是Beta函数，定义为： $B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} \, dt$

Beta函数 $B(\alpha, \beta)$ 可以通过Gamma函数表示为： $B(\alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha + \beta)}$

均值与方差

Beta分布的均值和方差分别为： $\text{均值: } \mathbb{E}[X] = \frac{\alpha}{\alpha + \beta}$ $\text{方差: } \operatorname{Var}(X) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}$

矩生成函数（MGF）

Beta分布的矩生成函数（MGF）没有闭式表达式，但可以通过其定义直接计算各阶矩。

Beta函数的性质

Beta函数 $B(\alpha, \beta)$ 具有以下性质：

对称性：$B(\alpha, \beta) = B(\beta, \alpha)$。
与Gamma函数的关系：$B(\alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha + \beta)}$。
特殊情况：当 $\alpha = \beta = 1$ 时，$B(1, 1) = 1$，此时Beta分布退化为均匀分布 $U(0, 1)$。

Beta分布的应用

Beta分布广泛应用于以下领域：

贝叶斯统计：作为二项分布或伯努利分布的共轭先验。
概率建模：用于描述概率、比例等取值范围在 $[0, 1]$ 的随机变量。
机器学习：在变分推断和生成模型中常用作隐变量的先验分布。

特殊情形

当 $\alpha = \beta = 1$，Beta分布退化为均匀分布 $U(0, 1)$，即： $P(X = x \mid 1, 1) = 1, \quad 0 \leq x \leq 1$
当 $\alpha, \beta > 1$ 时，Beta分布呈现单峰形状；当 $\alpha, \beta < 1$ 时，Beta分布呈现U形。
当 $\alpha = \beta$ 时，Beta分布在 $[0, 1]$ 区间上对称。

通过上述定义和性质，我们可以看到Beta分布是一个极其灵活的概率分布，能够适应多种实际应用场景。

例子指数分布

指数分布是一种连续概率分布，常用于描述事件之间的时间间隔，例如在泊松过程中两次事件发生的时间间隔。

指数分布表示为： $\text{Exp}(\lambda)$

其中：

$\lambda > 0$ 是率参数（rate parameter），表示单位时间内事件发生的平均次数。
指数分布的概率密度函数（PDF）定义为： $f(x \mid \lambda) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0, \\ 0, & x < 0. \end{cases}$

或者等价地用累积分布函数（CDF）表示为： $F(x \mid \lambda) = \begin{cases} 1 - e^{-\lambda x}, & x \geq 0, \\ 0, & x < 0. \end{cases}$

性质

无记忆性（Memoryless Property）：指数分布是唯一具有无记忆性的连续分布。对于任意 $s, t \geq 0$，满足： $P(X > s + t \mid X > s) = P(X > t).$ 这一性质表明，过去的时间不会影响未来事件发生的概率。
与泊松分布的关系： 如果事件的发生服从泊松过程，则时间间隔服从指数分布。具体来说，若单位时间内事件发生的次数服从泊松分布 $\text{Pois}(\lambda)$，则事件之间的时间间隔服从 $\text{Exp}(\lambda)$。

均值与方差 $\text{均值: } \mathbb{E}[X] = \frac{1}{\lambda}$ $\text{方差: } \operatorname{Var}(X) = \frac{1}{\lambda^2}$

矩生成函数 (MGF) 指数分布的矩生成函数（MGF）为： $M_X(t) = \frac{\lambda}{\lambda - t}, \quad t < \lambda$ 注意，MGF 在 $t \geq \lambda$ 时未定义。

标准形式 当 $\lambda = 1$ 时，分布称为标准指数分布，其 PDF 为： $f(x) = e^{-x}, \quad x \geq 0.$

例子 Poisson 分布

泊松分布是一种离散概率分布，用于描述在固定时间或空间内某事件发生的次数。它常用于建模稀疏事件的发生频率，例如单位时间内电话呼叫次数、放射性粒子衰变次数等。

泊松分布表示为： $\text{Poisson}(\lambda)$

其中：

$\lambda > 0$ 是事件发生率（rate parameter），表示在给定时间或空间内事件的平均发生次数。
泊松分布的概率质量函数（PMF）定义为： $P(X = k \mid \lambda) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$

性质

非负性： 泊松分布仅适用于非负整数 $k$，即 $k \in {0, 1, 2, \ldots}$。
均值与方差相等： 泊松分布的均值和方差都等于参数 $\lambda$。
可加性： 如果 $X_1 \sim \text{Pois}(\lambda_1)$ 和 $X_2 \sim \text{Pois}(\lambda_2)$ 是独立的泊松随机变量，则其和 $X_1 + X_2$ 也服从泊松分布，且参数为 $\lambda_1 + \lambda_2$。
与指数分布的关系： 如果事件发生的时间间隔服从指数分布 $\text{Exp}(\lambda)$，则在固定时间内的事件发生次数服从泊松分布 $\text{Pois}(\lambda)$。

均值与方差 $\text{均值: } \mathbb{E}[X] = \lambda$ $\text{方差: } \operatorname{Var}(X) = \lambda$

矩生成函数（MGF）

泊松分布的矩生成函数（MGF）为： $M_X(t) = \exp\left(\lambda (e^t - 1)\right), \quad t \in \mathbb{R}$

例子卡方分布

卡方分布（Chi-Squared Distribution）是统计学中一种重要的连续型概率分布。

定义

设 $ Z_1, Z_2, \dots, Z_k $ 是独立的标准正态随机变量，则其平方和：

\[X = Z_1^2 + Z_2^2 + \cdots + Z_k^2\]

服从自由度为 $ k $ 的卡方分布，记作：

\[X \sim \chi^2(k)\]

概率密度函数

\[f(x; k) = \begin{cases} \displaystyle \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, & x > 0 \\ 0, & \text{其他} \end{cases}\]

数学期望与方差

\[\mathbb{E}[X] = k,\quad \operatorname{Var}(X) = 2k\]

主要性质

可加性：若 $ X_1 \sim \chi^2(k_1) $，$ X_2 \sim \chi^2(k_2) $，独立，则 $X_1 + X_2 \sim \chi^2(k_1 + k_2)$
是伽马分布的特例：$\chi^2(k) \equiv \Gamma\left( \frac{k}{2}, 2 \right)$

例子 t 分布

Student’s t 分布是统计学中常用的一种连续型概率分布，特别适用于小样本情况下的统计推断。

定义

设 $ Z \sim \mathcal{N}(0,1) $，$ V \sim \chi^2(k) $，且相互独立，则：

\[T = \frac{Z}{\sqrt{V / k}} \sim t(k)\]

称为自由度为 $ k $ 的 Student’s t 分布。

概率密度函数

其概率密度函数为：

\[f(t; k) = \frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi} \, \Gamma\left(\frac{k}{2}\right)} \left(1 + \frac{t^2}{k} \right)^{-\frac{k+1}{2}}\]

数学期望与方差

若 $ T \sim t(k) $，则：

\[\mathbb{E}[T] = \begin{cases} 0, & k > 1 \\ \text{不存在}, & k \leq 1 \end{cases}, \quad \operatorname{Var}(T) = \begin{cases} \displaystyle \frac{k}{k - 2}, & k > 2 \\ \text{不存在}, & k \leq 2 \end{cases}\]

主要性质

关于 0 对称；
当 $ k \to \infty $，$ t(k) \to \mathcal{N}(0,1) $；
尾部比正态分布更厚。

应用

单样本 t 检验
独立两样本 t 检验
配对样本 t 检验
均值的置信区间估计

指数族 (exponential family)

定义指数组 (exponential family)

一组概率密度函数（pdfs）或概率质量函数（pmfs）被称为指数族，如果它可以表示为

\[f(x \mid \boldsymbol{\theta}) = h(x) c(\boldsymbol{\theta}) \exp\left( \sum_{i=1}^{k} w_i(\boldsymbol{\theta}) t_i(x) \right)\]

$\boldsymbol{\theta}$ : 参数
$h(x) \geq 0$ 和 $t_1(x), \ldots, t_k(x)$ 是 $x$ 的实值函数（不能依赖于 $\boldsymbol{\theta}$!）；$h(x)$ 可以包含支持/样本空间的指示器。
$c(\boldsymbol{\theta}) \geq 0$ 和 $w_1(\boldsymbol{\theta}), \ldots, w_k(\boldsymbol{\theta})$ 是 $\boldsymbol{\theta}$ 的实值函数（不能依赖于 $x$!）
如果样本空间是 $\boldsymbol{\theta}$ 的函数，则它不能表示为指数族。例如，$f(x \mid \theta) = \theta^{-1} \exp(1 - (x/\theta))$，$0 < \theta < x < \infty$
许多常见的分布族是指数族，如正态、伽玛、贝塔、二项、泊松和负二项分布…
对于指数族，我们可以交换积分 $\int$ 和偏导数 $\frac{d}{d\theta}$ 的顺序！

定义 curved exponential family, full exponential family

A curved exponential family is a family of densities of the form (3.4.1) (i.e., exponential family) for which the dimension of the vector $\theta$ is equal to $d < k$. If $d = k$, the family is a full exponential family.

命题 reparametrization

An exponential family is sometimes reparameterized as

\[f(x \| \eta) = h(x) c^*(\eta) \exp\left( \sum_{i=1}^k \eta_i t_i(x) \right)\]

The set $\mathcal{H} = {\eta = (\eta_1, \ldots, \eta_k) : \int_{-\infty}^\infty h(x) \exp\left( \sum_{i=1}^k \eta_i t_i(x) \right) dx < \infty}$ is called the natural parameter space for the family.
$c^*(\eta) = \left[ \int_{-\infty}^\infty h(x) \exp\left( \sum_{i=1}^k \eta_i t_i(x) \right) dx \right]^{-1}$
${\eta = (w_1(\theta), \ldots, w_k(\theta)) : \theta \in \Theta} \in \mathcal{H}$

Delta Method

定理 $\Delta$ 方法

设随机变量序列 $Y_n$ 满足：$\sqrt{n}(Y_n - \theta)$ 依分布收敛于 $\mathcal{N}(0, \sigma^2)$，函数 $g$ 在指定的 $\theta$ 处满足：$g’(\theta)$ 存在且不为零，则 $\sqrt{n}[g(Y_n) - g(\theta)] \xrightarrow{\text{d}} \mathcal{N}(0, \sigma^2 [g'(\theta)]^2)$

证明

使用 Taylor 展开.

定理二阶 $\Delta$ 方法

设随机变量序列 $Y_n$ 满足：$\sqrt{n}(Y_n - \theta)$ 依分布收敛于 $\mathcal{N}(0, \sigma^2)$，函数 $g$ 在指定的 $\theta$ 处满足 $g’(\theta) = 0$、$g’’(\theta)$ 存在且不为零，则 $n[g(Y_n) - g(\theta)] \xrightarrow{\text{d}} \frac{\sigma^2 g''(\theta)}{2} \chi_1^2$

定理多元 $\Delta$ 方法

设随机样本 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 满足：$\mathbb{E}(\mathbf{X}_{ij}) = \mu_i$ 且 $\operatorname{Cov}(\mathbf{X}_{ik}, \mathbf{X}_{jk}) = \sigma_{ij}$。函数 $g$ 有连续一阶偏导，且在指定的 $\boldsymbol{\mu} = (\mu_1, \ldots, \mu_p)$ 处满足： $\tau^2 = \sum_{i=1}^{p} \sum_{j=1}^{p} \sigma_{ij} \frac{\partial g(\boldsymbol{\mu})}{\partial \mu_i} \cdot \frac{\partial g(\boldsymbol{\mu})}{\partial \mu_j} > 0,$ 则 $\sqrt{n}[g(\overline{\mathbf{X}}\_1, \ldots, \overline{\mathbf{X}}\_p) - g(\mu_1, \ldots, \mu_p)] \xrightarrow{\text{d}} \mathcal{N}(0, \tau^2)$

Order Statistics

定理次序统计量的概率密度函数

设随机样本 $X_1, \ldots, X_n$ 取自累积分布函数为 $F_X(x)$、概率密度函数为 $f_X(x)$ 的连续型总体，$X_{(1)}, \ldots, X_{(n)}$ 为其次序统计量，则 $X_{(j)}$ 的概率密度函数为 $f_{X_{(j)}}(x) = \frac{n!}{(j-1)!(n-j)!} f_X(x) [F_X(x)]^{j-1} [1 - F_X(x)]^{n-j}$

定理次序统计量的联合概率密度函数

Let $X_{(1)}, \ldots, X_{(n)}$ denote the order statistics of a random sample, $X_1, \ldots, X_n$, from a continuous population with cdf $F_X(x)$ and pdf $f_X(x)$. Then the joint pdf of $X_{(i)}$ and $X_{(j)}$, $1\le i < j \le n$, is $f_{X_{(i)}, X_{(j)}} = \frac{n!}{(i-1)! (j-1-i)!(n-j)!} f_X(u) f_X(v) [F_X(u)]^{i-1} [F_X(v)-F_X(u)]^{j-1-i} [1-F_X(v)]^{n-j}$

\[f_{X_{(1)}, \ldots, X_{(n)}}(x_1, \ldots, x_n) = \begin{cases} n! \cdot f_X(x_1) \cdot \ldots \cdot f_X(x_n) & -\infty < x_1 < \ldots < x_n < +\infty \\ 0 & \text{其他} \end{cases}\]

正态分布的抽样

定义样本均值和样本方差

\[\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i, \quad S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2\]

定理样本均值和样本方差的分布

设随机样本 $X_1, \dots, X_n$ 取自服从 $\mathcal{N}(\mu, \sigma^2)$ 分布的总体，$\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i$ 且 $S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2$，则

a. $\overline{X}$ 和 $S^2$ 是独立随机变量； b. $\overline{X}$ 服从 $\mathcal{N}(\mu, \sigma^2/n)$ 分布； c. $(n-1)S^2/\sigma^2$ 服从自由度为 $n-1$ 的 $\chi^2$ 分布

证明根据 3.5 节关于位置-尺度族的讨论，不失一般性，我们可以假定 $\mu = 0$ 且 $\sigma = 1$（也可参考定理 5.2.11 前面的讨论）. 此外，注意到例 5.2.8 中已经证明了 (b)，所以此处只需要证明 (a) 和 (c).

为证明 (a)，只需证明 $\overline{X}$ 和 $S^2$ 是独立随机向量的函数. 我们可以将 $S^2$ 写成 $n-1$ 个离差的函数，事实上我们有： $\begin{aligned} S^2 &= \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2 \\ &= \frac{1}{n-1} \left( (X_1 - \overline{X})^2 + \sum_{i=2}^n (X_i - \overline{X})^2 \right) \\ &= \frac{1}{n-1} \left( \left[ \sum_{i=2}^n (X_i - \overline{X}) \right]^2 + \sum_{i=2}^n (X_i - \overline{X})^2 \right) \quad (\text{因为 } \sum_{i=1}^n (X_i - \overline{X}) = 0) \end{aligned}$ 即，$S^2$ 仅仅是 $(X_2 - \overline{X}, \dots, X_n - \overline{X})$ 的函数. 下面我们证明 $(X_2 - \overline{X}, \dots, X_n - \overline{X})$ 与 $\overline{X}$ 独立. 随机样本 $X_1, \dots, X_n$ 的联合概率密度函数为 $f(x_1, \dots, x_n) = \frac{1}{(2\pi)^{n/2}} e^{-(1/2) \sum_{i=1}^n x_i^2}, \quad -\infty < x_i < +\infty$ 做变量替换 $\begin{aligned} y_1 &= \overline{x}, \\ y_2 &= x_2 - \overline{x}, \\ &\vdots \\ y_n &= x_n - \overline{x}. \end{aligned}$ 该变换的 Jacobi 行列式等于 $1/n$. 于是 $\begin{aligned} f(y_1, \dots, y_n) &= \frac{n}{(2\pi)^{n/2}} e^{-(1/2)(y_1 - \sum_{i=2}^n y_i)^2} e^{-(1/2) \sum_{i=2}^n (y_i + y_1)^2}, \quad -\infty < y_i < +\infty \\ &= \left[ \left( \frac{n}{2\pi} \right)^{1/2} e^{(-ny_1^2)/2} \right] \left[ \frac{n^{1/2}}{(2\pi)^{(n-1)/2}} e^{-(1/2) \left[ \sum_{i=2}^n y_i^2 + (\sum_{i=2}^n y_i)^2 \right]} \right], \quad -\infty < y_i < +\infty \end{aligned}$ 根据定理 4.6.11 以及 $Y_1, \dots, Y_n$ 的联合概率密度函数的上述分解可知，$Y_1$ 与 $Y_2, \dots, Y_n$ 独立. 再由定理 4.6.12，$\overline{X}$ 与 $S^2$ 独立.

为证明 (c) 我们必须求出 $S^2$ 的分布. 在开始证明之前，我们首先讨论 $\chi^2$ 分布的性质，这对我们推导 $S^2$ 的分布很有帮助. 回忆 3.3 节，我们知道 $\chi^2$ 概率密度函数是伽玛概率密度函数的特例，其表达式为

$f(x) = \frac{1}{\Gamma(p/2)} e^{p/2} x^{(p/2)-1} e^{-x/2}, \quad 0 < x < +\infty$ 其中 $p$ 称为自由度. 下面列出即将用到的有关 $\chi^2$ 分布的一些事实.

引理关于 $\chi^2$ 随机变量的若干事实

以 $\chi_p^2$ 记自由度为 $p$ 的 $\chi^2$ 随机变量. a. 如果 $Z$ 是 $\mathcal{N}(0, 1)$ 随机变量，则 $Z^2 \sim \chi_1^2$，即标准正态随机变量的平方是 $\chi^2$ 随机变量；

b. 如果 $X_1, \dots, X_n$ 独立且 $X_i \sim \chi_{p_i}^2$，则 $X_1 + \cdots + X_n \sim \chi_{p_1 + \cdots + p_n}^2$，即独立的 $\chi^2$ 随机变量之和仍为 $\chi^2$ 随机变量，且其自由度为原随机变量自由度之和.

证明

下面我们归纳地求 $S^2$ 的分布. 以 $\overline{X}_k$ 和 $S_k^2$ 分别记前 $k$ 个观测值的样本均值和方差（注意各个观测值可能原本是无序的，此处将它们看成有序的原因，仅仅是为了方便证明）. 我们很容易证明（见习题 5.15）： $\begin{equation} (n-1) S_n^2 = (n-2) S_{n-1}^2 + \left(\frac{n-1}{n}\right)(X_n - \overline{X}\_{n-1})^2 \end{equation}$ 现在令 $n=2$，并定义 $0 \times S_1^2 = 0$，则由式 (5.3.1) 有： $S_2^2 = \frac{1}{2}(X_2 - X_1)^2$ 由于 $(X_2 - X_1)/\sqrt{2}$ 服从 $\mathcal{N}(0, 1)$ 分布，于是根据引理 5.3.2 有 $S_2^2 \sim \chi_1^2$. 利用归纳法，假设当 $n=k$ 时有 $(k-1)S_k^2 \sim \chi_{k-1}^2$，则对 $n=k+1$，根据式 (5.3.1) 有： $\begin{equation} k S_{k+1}^2 = (k-1) S_k^2 + \left(\frac{k}{k+1}\right)(X_{k+1} - \overline{X}\_k)^2 \end{equation}$ 根据归纳假设 $(k-1)S_k^2 \sim \chi_{k-1}^2$，如果我们能够证明 $(k/(k+1))(X_{k+1} - \overline{X}_k)^2 \sim \chi_1^2$ 且与 $S_k^2$ 独立，则由引理 5.3.2(b) 可得 $kS_{k+1}^2 \sim \chi_k^2$，从而定理得证.

$(X_{k+1} - \overline{X}_k)^2$ 与 $S_k^2$ 的独立性仍可利用定理 4.6.12 加以证明. 事实上，向量 $(X_{k+1}, \overline{X}_k)$ 与 $S_k^2$ 独立，故任意其函数均与 $S_k^2$ 独立. 此外，注意到 $X_{k+1} - \overline{X}_k$ 是正态随机变量，且其期望为 0，方差为 $\operatorname{Var}(X_{k+1} - \overline{X}\_k) = \frac{k+1}{k}$ 因此 $(k/(k+1))(X_{k+1} - \overline{X}_k)^2 \sim \chi_1^2$，定理得证.

通过分解联合概率密度函数证明了 $\overline{X}$ 和 $S^2$ 的独立性，事实上，我们还可以利用下面的引理完成该证明. 这个引理将正态随机样本的独立性与相关联在一起.

下一节：数据简化原理

Written on January 10, 2026