数理统计

应用数理统计(第三版)

抽样分布

顺序统计量

$\xi_{(1)} = \min{\xi_k}$,$\xi_{(n)} = \max{\xi_k}$。

分布函数计算:

\[F(\xi_{(1)}) = 1 - P(\xi_1 > x,\dots,\xi_n > x) = 1 - (1 - F(x))^n\] \[F(\xi_{(n)}) = P(\xi_1 \le x,\dots,\xi_n \le x) = [F(x)]^n\]

常见分布速查

分布类型分布律或概率密度函数数学期望 $E(X)$方差 $D(X)$
二项分布 $X \sim B(n, p)$$C_n^k p^k (1-p)^{n-k}$$np$$np(1-p)$
泊松分布 $X \sim P(\lambda)$$\frac{\lambda^k}{k!} e^{-\lambda}$$\lambda$$\lambda$
几何分布 $X \sim G(p)$$(1-p)^{k-1} p$$1/p$$(1-p)/p^2$
均匀分布 $X \sim U(a, b)$$1/(b-a)$$(a+b)/2$$(b-a)^2/12$
指数分布 $X \sim E(\lambda)$$\lambda e^{-\lambda x} (x \ge 0)$$1/\lambda$$1/\lambda^2$
正态分布 $X \sim N(\mu, \sigma^2)$$\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$\mu$$\sigma^2$
$\Gamma$ 分布 $X \sim \Gamma(\alpha, \beta)$$\frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}$$\alpha/\beta$$\alpha/\beta^2$
$\beta$ 分布 $X \sim \beta(\alpha, \beta)$$\frac{x^{\alpha-1} (1-x)^{\beta-1}}{B(\alpha, \beta)}$$\alpha/(\alpha + \beta)$$\alpha \beta /[(\alpha + \beta)^2 (\alpha + \beta + 1)]$

$\Gamma$ 函数常用积分:$\Gamma(n) = \int_0^\infty x^{n-1} e^{-x} \, dx$。

多元正态分布

若 $\xi \sim N(\mu, \Sigma)$,对线性变换 $Y = A\xi + b$ 有 $Y \sim N(A\mu + b, A \Sigma A^{\mathsf T})$。

多元正态密度函数:

\(f(\xi) = \frac{1}{(2\pi)^{n/2} \lvert \Sigma \rvert^{1/2}} \exp\Big(-\tfrac{1}{2} (\xi - \mu)^{\mathsf T} \Sigma^{-1} (\xi - \mu)\Big)\)

三大抽样分布

  • 卡方分布:$\chi^2 = \sum_{i=1}^n \eta_i^2 \sim \chi^2(n)$
  • t 分布:$t = \frac{\eta}{\sqrt{\chi^2(n)/n}} \sim t(n)$
  • F 分布:$F = \frac{\chi^2(n)/n}{\chi^2(m)/m} \sim F(n, m)$

常用分位数性质:$t_\alpha = -t_{1-\alpha}$;$F_{\alpha}(n,m)=1/F_{1-\alpha}(m,n)$;卡方分布无类似对称性质。

参数估计

点估计

  • 矩估计:令总体矩等于样本矩,例如 $E(X^k) = M_k = \frac{1}{n} \sum_{i=1}^n x_i^k$。
  • 极大似然估计:对似然函数 \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) 求导并令 $\frac{\partial L}{\partial \theta}=0$。

估计量性质

  • 无偏性:$E(\hat{\theta})=\theta$;
  • 一致性:当 $n\to\infty$,对任意 $\epsilon>0$,有 $P(\lvert \hat{\theta}-\theta \rvert<\epsilon)\to 1$;
  • 有效性与 C-R 界

    \[D(\hat{\theta}) \ge \frac{(g'(\theta))^2}{nI(\theta)},\quad I(\theta)=E\Big[\Big(\frac{\partial \ln f(X;\theta)}{\partial \theta}\Big)^2\Big]\]

    当 $\frac{\partial}{\partial \theta}\ln L = C(\theta)[T-g(\theta)]$ 时取等号。

贝叶斯估计

在均方损失下,贝叶斯估计为后验期望:

\(\hat{\theta}_{\text{Bayes}} = E(\theta \mid \xi_1,\dots,\xi_n)\) 对于连续参数:

\(\hat{\theta}_{\text{Bayes}} = \int_{-\infty}^{+\infty} y \, h(y \mid \xi_1,\dots,\xi_n) \, dy,\) 离散情形改为求和。后验分布满足

\(h(y \mid x_1,\dots,x_n) \propto \pi(y) f(x_1,\dots,x_n \mid y).\)

假设检验与方差分析

随机化检验:当检验水平无法精确等于 $\alpha$ 时,可在临界值 $\zeta=b$ 处随机拒绝原假设:

\(\phi(x) = \begin{cases} 1, & \zeta > b, \\ \delta, & \zeta = b, \\ 0, & \zeta < b, \end{cases} \quad \delta = \frac{\alpha - \alpha_1}{P_{H_0}(\zeta = b)}.\)

线性回归

针对模型 $Y = X\beta + \varepsilon$:

  • 最小二乘估计 $\hat{\beta} = (X^{\mathsf T}X)^{-1} X^{\mathsf T}Y$,预测值 $\hat{Y}=X\hat{\beta}=HY$,误差 $\hat{\varepsilon} = (I-H)Y$。
  • 经典性质:
    1. $\hat{\beta_{j}} \sim N({\beta_{j}}, \sigma^2 (X^{\mathsf T}X)^{-1}_{jj})$
    2. $Q_e/\sigma^2 \sim \chi^2(n-k-1)$,$\hat{\sigma}^2 = Q_e/(n-k-1)$ 无偏
    3. $U_R/\sigma^2 \sim \chi^2(k)$

整体显著性检验(F 检验):

\[F = \frac{U_R / k}{Q_e / (n - k - 1)} \sim F(k,n-k-1).\]

单个回归系数的 t 检验:

\[t_j = \frac{\hat{\beta}_j}{\sqrt{c_{jj}}\, \hat{\sigma}} \sim t(n-k-1).\]

预测区间示例:

\[\hat{y} \pm t_{1-\alpha/2}(n-k-1) \hat{\sigma}_\varepsilon \sqrt{1 + \frac{1}{n} + \frac{(x - \bar{x})^2}{\sum (x_i - \bar{x})^2}}.\]

带约束线性回归($H\beta = d$)的估计

\[\hat{\beta}_H = \hat{\beta} - (X^{\mathsf T}X)^{-1} H^{\mathsf T} [H (X^{\mathsf T}X)^{-1} H^{\mathsf T}]^{-1} (H\hat{\beta} - d),\]

检验统计量

\[\frac{(H\hat{\beta} - d)^{\mathsf T} [H(X^{\mathsf T}X)^{-1} H^{\mathsf T}]^{-1} (H\hat{\beta} - d)/q}{Q_e/(n-k-1)} \sim F(q, n-k-1).\]