Statistical Inference 概率论基础
本文系统研究统计推断所需的概率论基础知识。首先介绍独立随机变量的定义和性质,这是理解样本分布的基础。然后详细研究各种重要概率分布,包括Gamma分布、正态分布、Beta分布、指数分布、Poisson分布、卡方分布和t分布,推导它们的概率密度函数、数字特征和矩生成函数。接着引入指数族的概念,这是统计推断中最重要的分布族。最后介绍Delta方法和次序统计量理论,并证明正态分布样本均值和样本方差独立性这一基本结果,这些内容为后续的统计推断理论奠定坚实基础。
概率论基础
独立随机变量
定义 独立随机变量
设 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 为一列随机向量,其联合概率密度(或质量)函数为 $f(\mathbf{x}_1, \ldots, \mathbf{x}_n)$,$\mathbf{X}_i$ 的边缘概率密度(或质量)函数为 $f_{\mathbf{X}_i}(\mathbf{x}_i)$。如果对任意 $(\mathbf{x}_1, \ldots, \mathbf{x}_n)$,都有 \(f(\mathbf{x}\_1, \ldots, \mathbf{x}\_n) = f_{\mathbf{X}\_1}(\mathbf{x}\_1) \cdot \ldots \cdot f_{\mathbf{X}\_n}(\mathbf{x}\_n) = \prod_{i=1}^{n} f_{\mathbf{X}\_i}(\mathbf{x}\_i)\) 则称 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是相互独立的随机向量(mutually independent vectors)。如果每个 $\mathbf{X}_i$ 都是一维的,则称 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是相互独立的随机变量(mutually independent variables)。
命题
设 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是一列随机向量,则 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 相互独立当且仅当存在函数 $g_i(\mathbf{x}_i)$,$i=1, \ldots, n$,使得 $(\mathbf{X}_1, \ldots, \mathbf{X}_n)$ 的联合概率密度(或质量)函数可以写为: \(f(\mathbf{x}\_1, \ldots, \mathbf{x}\_n) = g_1(\mathbf{x}\_1) \cdot \ldots \cdot g_n(\mathbf{x}\_n)\)
命题
设 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 是一列相互独立的随机向量,$g_i(\mathbf{x}_i)$ 是 $\mathbf{x}_i$ 的一元函数,$i=1, \ldots, n$。则随机变量 $U_i = g_i(\mathbf{X}_i)$,$i=1, \ldots, n$ 相互独立。
Distributions
定理 概率分布的变量变换公式
设 $X$ 是一个连续型随机变量,其概率密度函数 (PDF) 为 $f_X(x)$。 设 $Y = g(X)$,其中函数 $g(x)$ 在 $X$ 的取值范围内是严格单调(即严格递增或严格递减)且可导的。 假设 $g(x)$ 的反函数为 $x = h(y)$(即 $h(y) = g^{-1}(y)$)。
则随机变量 $Y$ 的概率密度函数 $f_Y(y)$ 为: \(f_Y(y) = f_X(h(y)) \left\| \frac{d}{dy} h(y) \right\|\) 或者,更详细地表示为: \(f_Y(y) = f_X(g^{-1}(y)) \left\| \frac{d}{dy} g^{-1}(y) \right\|\) 其中, $y$ 的取值范围是 $X$ 的取值范围通过函数 $g(x)$ 映射后得到的范围。
例子 Gamma Distribution
Gamma分布表示为: \(\text{Gamma}(\alpha, \beta)\)
Gamma分布的概率密度函数(PDF)定义为: \(P(X = x \mid \alpha, \beta) = \frac{1}{\Gamma(\alpha)\beta^{\alpha}} x^{\alpha-1} e^{-x/\beta}, \quad 0 \leq x < \infty\)
其中:
- $x$ 是随机变量($x \geq 0$),
- $\alpha$ 是形状参数($\alpha > 0$),
- $\beta$ 是尺度参数($\beta > 0$),
- $\Gamma(\alpha)$ 是Gamma函数,定义为: \(\Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} \, dt\)
均值与方差: \(\text{均值: } \mathbb{E}[X] = \alpha \beta\) \(\text{方差: } \operatorname{Var}(X) = \alpha \beta^2\)
矩生成函数(MGF): Gamma分布的矩生成函数(MGF)为: \(M_X(t) = \left( \frac{1}{1 - \beta t} \right)^\alpha, \quad t < \frac{1}{\beta}\)
Gamma函数的性质: Gamma函数 $\Gamma(\alpha)$ 具有以下性质:
- 对于 $\alpha > 0$,有 $\Gamma(\alpha+1) = \alpha \Gamma(\alpha)$。
- 对于任意正整数 $n > 0$,有 $\Gamma(n) = (n-1)!$。
例子 Normal Distribution
正态分布表示为: \(\mathcal{N}(\mu, \sigma^2)\)
正态分布的概率密度函数(PDF)定义为: \(f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty\)
其中:
- $x$ 是随机变量,
- $\mu$ 是均值(决定分布的中心位置),
- $\sigma^2$ 是方差(决定分布的宽度,$\sigma > 0$)。
性质:
- 正态分布是对称的,其峰值位于 $\mu$。
- 标准正态分布是正态分布的一种特殊情况,记作 $\mathcal{N}(0, 1)$,即 $\mu = 0$ 且 $\sigma^2 = 1$。
- 如果 $X \sim \mathcal{N}(\mu, \sigma^2)$,则标准化后的随机变量 $Z = \frac{X - \mu}{\sigma}$ 服从标准正态分布 $\mathcal{N}(0, 1)$。
均值与方差: \(\text{均值: } \mathbb{E}[X] = \mu\) \(\text{方差: } \operatorname{Var}(X) = \sigma^2\)
矩生成函数(MGF): 正态分布的矩生成函数(MGF)为: \(M_X(t) = \exp\left(\mu t + \frac{\sigma^2 t^2}{2}\right), \quad t \in \mathbb{R}\)
例子 Beta 分布
Beta分布是一种定义在区间 $[0, 1]$ 上的连续概率分布,通常用于建模随机变量在有限区间内的行为。Beta分布的概率密度函数(PDF)定义为:
\[P(X = x \mid \alpha, \beta) = \frac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1}, \quad 0 \leq x \leq 1\]其中:
- $x$ 是随机变量($0 \leq x \leq 1$),
- $\alpha$ 是形状参数($\alpha > 0$),
- $\beta$ 是形状参数($\beta > 0$),
- $B(\alpha, \beta)$ 是Beta函数,定义为: \(B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} \, dt\)
Beta函数 $B(\alpha, \beta)$ 可以通过Gamma函数表示为: \(B(\alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha + \beta)}\)
均值与方差
Beta分布的均值和方差分别为: \(\text{均值: } \mathbb{E}[X] = \frac{\alpha}{\alpha + \beta}\) \(\text{方差: } \operatorname{Var}(X) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}\)
矩生成函数(MGF)
Beta分布的矩生成函数(MGF)没有闭式表达式,但可以通过其定义直接计算各阶矩。
Beta函数的性质
Beta函数 $B(\alpha, \beta)$ 具有以下性质:
- 对称性:$B(\alpha, \beta) = B(\beta, \alpha)$。
- 与Gamma函数的关系:$B(\alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha + \beta)}$。
- 特殊情况:当 $\alpha = \beta = 1$ 时,$B(1, 1) = 1$,此时Beta分布退化为均匀分布 $U(0, 1)$。
Beta分布的应用
Beta分布广泛应用于以下领域:
- 贝叶斯统计:作为二项分布或伯努利分布的共轭先验。
- 概率建模:用于描述概率、比例等取值范围在 $[0, 1]$ 的随机变量。
- 机器学习:在变分推断和生成模型中常用作隐变量的先验分布。
特殊情形
-
当 $\alpha = \beta = 1$,Beta分布退化为均匀分布 $U(0, 1)$,即: \(P(X = x \mid 1, 1) = 1, \quad 0 \leq x \leq 1\)
-
当 $\alpha, \beta > 1$ 时,Beta分布呈现单峰形状;当 $\alpha, \beta < 1$ 时,Beta分布呈现U形。
-
当 $\alpha = \beta$ 时,Beta分布在 $[0, 1]$ 区间上对称。
通过上述定义和性质,我们可以看到Beta分布是一个极其灵活的概率分布,能够适应多种实际应用场景。
例子 指数分布
指数分布是一种连续概率分布,常用于描述事件之间的时间间隔,例如在泊松过程中两次事件发生的时间间隔。
指数分布表示为: \(\text{Exp}(\lambda)\)
其中:
- $\lambda > 0$ 是率参数(rate parameter),表示单位时间内事件发生的平均次数。
- 指数分布的概率密度函数(PDF)定义为: \(f(x \mid \lambda) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0, \\ 0, & x < 0. \end{cases}\)
或者等价地用累积分布函数(CDF)表示为: \(F(x \mid \lambda) = \begin{cases} 1 - e^{-\lambda x}, & x \geq 0, \\ 0, & x < 0. \end{cases}\)
性质
-
无记忆性(Memoryless Property): 指数分布是唯一具有无记忆性的连续分布。对于任意 $s, t \geq 0$,满足: \(P(X > s + t \mid X > s) = P(X > t).\) 这一性质表明,过去的时间不会影响未来事件发生的概率。
-
与泊松分布的关系: 如果事件的发生服从泊松过程,则时间间隔服从指数分布。具体来说,若单位时间内事件发生的次数服从泊松分布 $\text{Pois}(\lambda)$,则事件之间的时间间隔服从 $\text{Exp}(\lambda)$。
均值与方差 \(\text{均值: } \mathbb{E}[X] = \frac{1}{\lambda}\) \(\text{方差: } \operatorname{Var}(X) = \frac{1}{\lambda^2}\)
矩生成函数 (MGF) 指数分布的矩生成函数(MGF)为: \(M_X(t) = \frac{\lambda}{\lambda - t}, \quad t < \lambda\) 注意,MGF 在 $t \geq \lambda$ 时未定义。
标准形式 当 $\lambda = 1$ 时,分布称为标准指数分布,其 PDF 为: \(f(x) = e^{-x}, \quad x \geq 0.\)
例子 Poisson 分布
泊松分布是一种离散概率分布,用于描述在固定时间或空间内某事件发生的次数。它常用于建模稀疏事件的发生频率,例如单位时间内电话呼叫次数、放射性粒子衰变次数等。
泊松分布表示为: \(\text{Poisson}(\lambda)\)
其中:
- $\lambda > 0$ 是事件发生率(rate parameter),表示在给定时间或空间内事件的平均发生次数。
- 泊松分布的概率质量函数(PMF)定义为: \(P(X = k \mid \lambda) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots\)
性质
-
非负性: 泊松分布仅适用于非负整数 $k$,即 $k \in {0, 1, 2, \ldots}$。
-
均值与方差相等: 泊松分布的均值和方差都等于参数 $\lambda$。
-
可加性: 如果 $X_1 \sim \text{Pois}(\lambda_1)$ 和 $X_2 \sim \text{Pois}(\lambda_2)$ 是独立的泊松随机变量,则其和 $X_1 + X_2$ 也服从泊松分布,且参数为 $\lambda_1 + \lambda_2$。
-
与指数分布的关系: 如果事件发生的时间间隔服从指数分布 $\text{Exp}(\lambda)$,则在固定时间内的事件发生次数服从泊松分布 $\text{Pois}(\lambda)$。
均值与方差 \(\text{均值: } \mathbb{E}[X] = \lambda\) \(\text{方差: } \operatorname{Var}(X) = \lambda\)
矩生成函数(MGF)
泊松分布的矩生成函数(MGF)为: \(M_X(t) = \exp\left(\lambda (e^t - 1)\right), \quad t \in \mathbb{R}\)
例子 卡方分布
卡方分布(Chi-Squared Distribution)是统计学中一种重要的连续型概率分布。
定义
设 $ Z_1, Z_2, \dots, Z_k $ 是独立的标准正态随机变量,则其平方和:
\[X = Z_1^2 + Z_2^2 + \cdots + Z_k^2\]服从自由度为 $ k $ 的卡方分布,记作:
\[X \sim \chi^2(k)\]概率密度函数
\[f(x; k) = \begin{cases} \displaystyle \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, & x > 0 \\ 0, & \text{其他} \end{cases}\]数学期望与方差
\[\mathbb{E}[X] = k,\quad \operatorname{Var}(X) = 2k\]主要性质
-
可加性:若 $ X_1 \sim \chi^2(k_1) $,$ X_2 \sim \chi^2(k_2) $,独立,则 \(X_1 + X_2 \sim \chi^2(k_1 + k_2)\)
-
是伽马分布的特例:$\chi^2(k) \equiv \Gamma\left( \frac{k}{2}, 2 \right)$
例子 t 分布
Student’s t 分布是统计学中常用的一种连续型概率分布,特别适用于小样本情况下的统计推断。
定义
设 $ Z \sim \mathcal{N}(0,1) $,$ V \sim \chi^2(k) $,且相互独立,则:
\[T = \frac{Z}{\sqrt{V / k}} \sim t(k)\]称为自由度为 $ k $ 的 Student’s t 分布。
概率密度函数
其概率密度函数为:
\[f(t; k) = \frac{\Gamma\left(\frac{k+1}{2}\right)}{\sqrt{k\pi} \, \Gamma\left(\frac{k}{2}\right)} \left(1 + \frac{t^2}{k} \right)^{-\frac{k+1}{2}}\]数学期望与方差
若 $ T \sim t(k) $,则:
\[\mathbb{E}[T] = \begin{cases} 0, & k > 1 \\ \text{不存在}, & k \leq 1 \end{cases}, \quad \operatorname{Var}(T) = \begin{cases} \displaystyle \frac{k}{k - 2}, & k > 2 \\ \text{不存在}, & k \leq 2 \end{cases}\]主要性质
- 关于 0 对称;
- 当 $ k \to \infty $,$ t(k) \to \mathcal{N}(0,1) $;
- 尾部比正态分布更厚。
应用
- 单样本 t 检验
- 独立两样本 t 检验
- 配对样本 t 检验
- 均值的置信区间估计
指数族 (exponential family)
定义 指数组 (exponential family)
一组概率密度函数(pdfs)或概率质量函数(pmfs)被称为指数族,如果它可以表示为
\[f(x \mid \boldsymbol{\theta}) = h(x) c(\boldsymbol{\theta}) \exp\left( \sum_{i=1}^{k} w_i(\boldsymbol{\theta}) t_i(x) \right)\]- $\boldsymbol{\theta}$ : 参数
- $h(x) \geq 0$ 和 $t_1(x), \ldots, t_k(x)$ 是 $x$ 的实值函数(不能依赖于 $\boldsymbol{\theta}$!);$h(x)$ 可以包含支持/样本空间的指示器。
- $c(\boldsymbol{\theta}) \geq 0$ 和 $w_1(\boldsymbol{\theta}), \ldots, w_k(\boldsymbol{\theta})$ 是 $\boldsymbol{\theta}$ 的实值函数(不能依赖于 $x$!)
- 如果样本空间是 $\boldsymbol{\theta}$ 的函数,则它不能表示为指数族。例如,$f(x \mid \theta) = \theta^{-1} \exp(1 - (x/\theta))$,$0 < \theta < x < \infty$
- 许多常见的分布族是指数族,如正态、伽玛、贝塔、二项、泊松和负二项分布…
- 对于指数族,我们可以交换积分 $\int$ 和偏导数 $\frac{d}{d\theta}$ 的顺序!
定义 curved exponential family, full exponential family
A curved exponential family is a family of densities of the form (3.4.1) (i.e., exponential family) for which the dimension of the vector $\theta$ is equal to $d < k$. If $d = k$, the family is a full exponential family.
命题 reparametrization
An exponential family is sometimes reparameterized as
\[f(x \| \eta) = h(x) c^*(\eta) \exp\left( \sum_{i=1}^k \eta_i t_i(x) \right)\]- The set $\mathcal{H} = {\eta = (\eta_1, \ldots, \eta_k) : \int_{-\infty}^\infty h(x) \exp\left( \sum_{i=1}^k \eta_i t_i(x) \right) dx < \infty}$ is called the natural parameter space for the family.
- $c^*(\eta) = \left[ \int_{-\infty}^\infty h(x) \exp\left( \sum_{i=1}^k \eta_i t_i(x) \right) dx \right]^{-1}$
- ${\eta = (w_1(\theta), \ldots, w_k(\theta)) : \theta \in \Theta} \in \mathcal{H}$
Delta Method
定理 $\Delta$ 方法
设随机变量序列 $Y_n$ 满足:$\sqrt{n}(Y_n - \theta)$ 依分布收敛于 $\mathcal{N}(0, \sigma^2)$,函数 $g$ 在指定的 $\theta$ 处满足:$g’(\theta)$ 存在且不为零,则 \(\sqrt{n}[g(Y_n) - g(\theta)] \xrightarrow{\text{d}} \mathcal{N}(0, \sigma^2 [g'(\theta)]^2)\)
证明
使用 Taylor 展开.
定理 二阶 $\Delta$ 方法
设随机变量序列 $Y_n$ 满足:$\sqrt{n}(Y_n - \theta)$ 依分布收敛于 $\mathcal{N}(0, \sigma^2)$,函数 $g$ 在指定的 $\theta$ 处满足 $g’(\theta) = 0$、$g’’(\theta)$ 存在且不为零,则 \(n[g(Y_n) - g(\theta)] \xrightarrow{\text{d}} \frac{\sigma^2 g''(\theta)}{2} \chi_1^2\)
定理 多元 $\Delta$ 方法
设随机样本 $\mathbf{X}_1, \ldots, \mathbf{X}_n$ 满足:$\mathbb{E}(\mathbf{X}_{ij}) = \mu_i$ 且 $\operatorname{Cov}(\mathbf{X}_{ik}, \mathbf{X}_{jk}) = \sigma_{ij}$。函数 $g$ 有连续一阶偏导,且在指定的 $\boldsymbol{\mu} = (\mu_1, \ldots, \mu_p)$ 处满足: \(\tau^2 = \sum_{i=1}^{p} \sum_{j=1}^{p} \sigma_{ij} \frac{\partial g(\boldsymbol{\mu})}{\partial \mu_i} \cdot \frac{\partial g(\boldsymbol{\mu})}{\partial \mu_j} > 0,\) 则 \(\sqrt{n}[g(\overline{\mathbf{X}}\_1, \ldots, \overline{\mathbf{X}}\_p) - g(\mu_1, \ldots, \mu_p)] \xrightarrow{\text{d}} \mathcal{N}(0, \tau^2)\)
Order Statistics
定理 次序统计量的概率密度函数
设随机样本 $X_1, \ldots, X_n$ 取自累积分布函数为 $F_X(x)$、概率密度函数为 $f_X(x)$ 的连续型总体,$X_{(1)}, \ldots, X_{(n)}$ 为其次序统计量,则 $X_{(j)}$ 的概率密度函数为 \(f_{X_{(j)}}(x) = \frac{n!}{(j-1)!(n-j)!} f_X(x) [F_X(x)]^{j-1} [1 - F_X(x)]^{n-j}\)
定理 次序统计量的联合概率密度函数
Let $X_{(1)}, \ldots, X_{(n)}$ denote the order statistics of a random sample, $X_1, \ldots, X_n$, from a continuous population with cdf $F_X(x)$ and pdf $f_X(x)$. Then the joint pdf of $X_{(i)}$ and $X_{(j)}$, $1\le i < j \le n$, is \(f_{X_{(i)}, X_{(j)}} = \frac{n!}{(i-1)! (j-1-i)!(n-j)!} f_X(u) f_X(v) [F_X(u)]^{i-1} [F_X(v)-F_X(u)]^{j-1-i} [1-F_X(v)]^{n-j}\)
\[f_{X_{(1)}, \ldots, X_{(n)}}(x_1, \ldots, x_n) = \begin{cases} n! \cdot f_X(x_1) \cdot \ldots \cdot f_X(x_n) & -\infty < x_1 < \ldots < x_n < +\infty \\ 0 & \text{其他} \end{cases}\]正态分布的抽样
定义 样本均值和样本方差
\[\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i, \quad S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2\]定理 样本均值和样本方差的分布
设随机样本 $X_1, \dots, X_n$ 取自服从 $\mathcal{N}(\mu, \sigma^2)$ 分布的总体,$\overline{X} = \frac{1}{n} \sum_{i=1}^n X_i$ 且 $S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2$,则
a. $\overline{X}$ 和 $S^2$ 是独立随机变量; b. $\overline{X}$ 服从 $\mathcal{N}(\mu, \sigma^2/n)$ 分布; c. $(n-1)S^2/\sigma^2$ 服从自由度为 $n-1$ 的 $\chi^2$ 分布
证明 根据 3.5 节关于位置-尺度族的讨论,不失一般性,我们可以假定 $\mu = 0$ 且 $\sigma = 1$(也可参考定理 5.2.11 前面的讨论). 此外,注意到例 5.2.8 中已经证明了 (b),所以此处只需要证明 (a) 和 (c).
为证明 (a),只需证明 $\overline{X}$ 和 $S^2$ 是独立随机向量的函数. 我们可以将 $S^2$ 写成 $n-1$ 个离差的函数,事实上我们有: \(\begin{aligned} S^2 &= \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2 \\ &= \frac{1}{n-1} \left( (X_1 - \overline{X})^2 + \sum_{i=2}^n (X_i - \overline{X})^2 \right) \\ &= \frac{1}{n-1} \left( \left[ \sum_{i=2}^n (X_i - \overline{X}) \right]^2 + \sum_{i=2}^n (X_i - \overline{X})^2 \right) \quad (\text{因为 } \sum_{i=1}^n (X_i - \overline{X}) = 0) \end{aligned}\) 即,$S^2$ 仅仅是 $(X_2 - \overline{X}, \dots, X_n - \overline{X})$ 的函数. 下面我们证明 $(X_2 - \overline{X}, \dots, X_n - \overline{X})$ 与 $\overline{X}$ 独立. 随机样本 $X_1, \dots, X_n$ 的联合概率密度函数为 \(f(x_1, \dots, x_n) = \frac{1}{(2\pi)^{n/2}} e^{-(1/2) \sum_{i=1}^n x_i^2}, \quad -\infty < x_i < +\infty\) 做变量替换 \(\begin{aligned} y_1 &= \overline{x}, \\ y_2 &= x_2 - \overline{x}, \\ &\vdots \\ y_n &= x_n - \overline{x}. \end{aligned}\) 该变换的 Jacobi 行列式等于 $1/n$. 于是 \(\begin{aligned} f(y_1, \dots, y_n) &= \frac{n}{(2\pi)^{n/2}} e^{-(1/2)(y_1 - \sum_{i=2}^n y_i)^2} e^{-(1/2) \sum_{i=2}^n (y_i + y_1)^2}, \quad -\infty < y_i < +\infty \\ &= \left[ \left( \frac{n}{2\pi} \right)^{1/2} e^{(-ny_1^2)/2} \right] \left[ \frac{n^{1/2}}{(2\pi)^{(n-1)/2}} e^{-(1/2) \left[ \sum_{i=2}^n y_i^2 + (\sum_{i=2}^n y_i)^2 \right]} \right], \quad -\infty < y_i < +\infty \end{aligned}\) 根据定理 4.6.11 以及 $Y_1, \dots, Y_n$ 的联合概率密度函数的上述分解可知,$Y_1$ 与 $Y_2, \dots, Y_n$ 独立. 再由定理 4.6.12,$\overline{X}$ 与 $S^2$ 独立.
为证明 (c) 我们必须求出 $S^2$ 的分布. 在开始证明之前,我们首先讨论 $\chi^2$ 分布的性质,这对我们推导 $S^2$ 的分布很有帮助. 回忆 3.3 节,我们知道 $\chi^2$ 概率密度函数是伽玛概率密度函数的特例,其表达式为
\(f(x) = \frac{1}{\Gamma(p/2)} e^{p/2} x^{(p/2)-1} e^{-x/2}, \quad 0 < x < +\infty\) 其中 $p$ 称为自由度. 下面列出即将用到的有关 $\chi^2$ 分布的一些事实.
引理 关于 $\chi^2$ 随机变量的若干事实
以 $\chi_p^2$ 记自由度为 $p$ 的 $\chi^2$ 随机变量. a. 如果 $Z$ 是 $\mathcal{N}(0, 1)$ 随机变量,则 $Z^2 \sim \chi_1^2$,即标准正态随机变量的平方是 $\chi^2$ 随机变量;
b. 如果 $X_1, \dots, X_n$ 独立且 $X_i \sim \chi_{p_i}^2$,则 $X_1 + \cdots + X_n \sim \chi_{p_1 + \cdots + p_n}^2$,即独立的 $\chi^2$ 随机变量之和仍为 $\chi^2$ 随机变量,且其自由度为原随机变量自由度之和.
证明
下面我们归纳地求 $S^2$ 的分布. 以 $\overline{X}_k$ 和 $S_k^2$ 分别记前 $k$ 个观测值的样本均值和方差(注意各个观测值可能原本是无序的,此处将它们看成有序的原因,仅仅是为了方便证明). 我们很容易证明(见习题 5.15): \(\begin{equation} (n-1) S_n^2 = (n-2) S_{n-1}^2 + \left(\frac{n-1}{n}\right)(X_n - \overline{X}\_{n-1})^2 \end{equation}\) 现在令 $n=2$,并定义 $0 \times S_1^2 = 0$,则由式 (5.3.1) 有: \(S_2^2 = \frac{1}{2}(X_2 - X_1)^2\) 由于 $(X_2 - X_1)/\sqrt{2}$ 服从 $\mathcal{N}(0, 1)$ 分布,于是根据引理 5.3.2 有 $S_2^2 \sim \chi_1^2$. 利用归纳法,假设当 $n=k$ 时有 $(k-1)S_k^2 \sim \chi_{k-1}^2$,则对 $n=k+1$,根据式 (5.3.1) 有: \(\begin{equation} k S_{k+1}^2 = (k-1) S_k^2 + \left(\frac{k}{k+1}\right)(X_{k+1} - \overline{X}\_k)^2 \end{equation}\) 根据归纳假设 $(k-1)S_k^2 \sim \chi_{k-1}^2$,如果我们能够证明 $(k/(k+1))(X_{k+1} - \overline{X}_k)^2 \sim \chi_1^2$ 且与 $S_k^2$ 独立,则由引理 5.3.2(b) 可得 $kS_{k+1}^2 \sim \chi_k^2$,从而定理得证.
$(X_{k+1} - \overline{X}_k)^2$ 与 $S_k^2$ 的独立性仍可利用定理 4.6.12 加以证明. 事实上,向量 $(X_{k+1}, \overline{X}_k)$ 与 $S_k^2$ 独立,故任意其函数均与 $S_k^2$ 独立. 此外,注意到 $X_{k+1} - \overline{X}_k$ 是正态随机变量,且其期望为 0,方差为 \(\operatorname{Var}(X_{k+1} - \overline{X}\_k) = \frac{k+1}{k}\) 因此 $(k/(k+1))(X_{k+1} - \overline{X}_k)^2 \sim \chi_1^2$,定理得证.
通过分解联合概率密度函数证明了 $\overline{X}$ 和 $S^2$ 的独立性,事实上,我们还可以利用下面的引理完成该证明. 这个引理将正态随机样本的独立性与相关联在一起.
