数理统计
应用数理统计(第三版)
抽样分布
顺序统计量
$\xi_{(1)} = \min{\xi_k}$,$\xi_{(n)} = \max{\xi_k}$。
分布函数计算:
\[F(\xi_{(1)}) = 1 - P(\xi_1 > x,\dots,\xi_n > x) = 1 - (1 - F(x))^n\] \[F(\xi_{(n)}) = P(\xi_1 \le x,\dots,\xi_n \le x) = [F(x)]^n\]常见分布速查
分布类型 | 分布律或概率密度函数 | 数学期望 $E(X)$ | 方差 $D(X)$ |
---|---|---|---|
二项分布 $X \sim B(n, p)$ | $C_n^k p^k (1-p)^{n-k}$ | $np$ | $np(1-p)$ |
泊松分布 $X \sim P(\lambda)$ | $\frac{\lambda^k}{k!} e^{-\lambda}$ | $\lambda$ | $\lambda$ |
几何分布 $X \sim G(p)$ | $(1-p)^{k-1} p$ | $1/p$ | $(1-p)/p^2$ |
均匀分布 $X \sim U(a, b)$ | $1/(b-a)$ | $(a+b)/2$ | $(b-a)^2/12$ |
指数分布 $X \sim E(\lambda)$ | $\lambda e^{-\lambda x} (x \ge 0)$ | $1/\lambda$ | $1/\lambda^2$ |
正态分布 $X \sim N(\mu, \sigma^2)$ | $\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ | $\mu$ | $\sigma^2$ |
$\Gamma$ 分布 $X \sim \Gamma(\alpha, \beta)$ | $\frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}$ | $\alpha/\beta$ | $\alpha/\beta^2$ |
$\beta$ 分布 $X \sim \beta(\alpha, \beta)$ | $\frac{x^{\alpha-1} (1-x)^{\beta-1}}{B(\alpha, \beta)}$ | $\alpha/(\alpha + \beta)$ | $\alpha \beta /[(\alpha + \beta)^2 (\alpha + \beta + 1)]$ |
$\Gamma$ 函数常用积分:$\Gamma(n) = \int_0^\infty x^{n-1} e^{-x} \, dx$。
多元正态分布
若 $\xi \sim N(\mu, \Sigma)$,对线性变换 $Y = A\xi + b$ 有 $Y \sim N(A\mu + b, A \Sigma A^{\mathsf T})$。
多元正态密度函数:
\(f(\xi) = \frac{1}{(2\pi)^{n/2} \lvert \Sigma \rvert^{1/2}} \exp\Big(-\tfrac{1}{2} (\xi - \mu)^{\mathsf T} \Sigma^{-1} (\xi - \mu)\Big)\)
三大抽样分布
- 卡方分布:$\chi^2 = \sum_{i=1}^n \eta_i^2 \sim \chi^2(n)$
- t 分布:$t = \frac{\eta}{\sqrt{\chi^2(n)/n}} \sim t(n)$
- F 分布:$F = \frac{\chi^2(n)/n}{\chi^2(m)/m} \sim F(n, m)$
常用分位数性质:$t_\alpha = -t_{1-\alpha}$;$F_{\alpha}(n,m)=1/F_{1-\alpha}(m,n)$;卡方分布无类似对称性质。
参数估计
点估计
- 矩估计:令总体矩等于样本矩,例如 $E(X^k) = M_k = \frac{1}{n} \sum_{i=1}^n x_i^k$。
- 极大似然估计:对似然函数 \(L(\theta)=\prod_{i=1}^n f(X_i;\theta)\) 求导并令 $\frac{\partial L}{\partial \theta}=0$。
估计量性质
- 无偏性:$E(\hat{\theta})=\theta$;
- 一致性:当 $n\to\infty$,对任意 $\epsilon>0$,有 $P(\lvert \hat{\theta}-\theta \rvert<\epsilon)\to 1$;
有效性与 C-R 界:
\[D(\hat{\theta}) \ge \frac{(g'(\theta))^2}{nI(\theta)},\quad I(\theta)=E\Big[\Big(\frac{\partial \ln f(X;\theta)}{\partial \theta}\Big)^2\Big]\]当 $\frac{\partial}{\partial \theta}\ln L = C(\theta)[T-g(\theta)]$ 时取等号。
贝叶斯估计
在均方损失下,贝叶斯估计为后验期望:
\(\hat{\theta}_{\text{Bayes}} = E(\theta \mid \xi_1,\dots,\xi_n)\) 对于连续参数:
\(\hat{\theta}_{\text{Bayes}} = \int_{-\infty}^{+\infty} y \, h(y \mid \xi_1,\dots,\xi_n) \, dy,\) 离散情形改为求和。后验分布满足
\(h(y \mid x_1,\dots,x_n) \propto \pi(y) f(x_1,\dots,x_n \mid y).\)
假设检验与方差分析
随机化检验:当检验水平无法精确等于 $\alpha$ 时,可在临界值 $\zeta=b$ 处随机拒绝原假设:
\(\phi(x) = \begin{cases} 1, & \zeta > b, \\ \delta, & \zeta = b, \\ 0, & \zeta < b, \end{cases} \quad \delta = \frac{\alpha - \alpha_1}{P_{H_0}(\zeta = b)}.\)
线性回归
针对模型 $Y = X\beta + \varepsilon$:
- 最小二乘估计 $\hat{\beta} = (X^{\mathsf T}X)^{-1} X^{\mathsf T}Y$,预测值 $\hat{Y}=X\hat{\beta}=HY$,误差 $\hat{\varepsilon} = (I-H)Y$。
- 经典性质:
- $\hat{\beta_{j}} \sim N({\beta_{j}}, \sigma^2 (X^{\mathsf T}X)^{-1}_{jj})$
- $Q_e/\sigma^2 \sim \chi^2(n-k-1)$,$\hat{\sigma}^2 = Q_e/(n-k-1)$ 无偏
- $U_R/\sigma^2 \sim \chi^2(k)$
整体显著性检验(F 检验):
\[F = \frac{U_R / k}{Q_e / (n - k - 1)} \sim F(k,n-k-1).\]单个回归系数的 t 检验:
\[t_j = \frac{\hat{\beta}_j}{\sqrt{c_{jj}}\, \hat{\sigma}} \sim t(n-k-1).\]预测区间示例:
\[\hat{y} \pm t_{1-\alpha/2}(n-k-1) \hat{\sigma}_\varepsilon \sqrt{1 + \frac{1}{n} + \frac{(x - \bar{x})^2}{\sum (x_i - \bar{x})^2}}.\]带约束线性回归($H\beta = d$)的估计
\[\hat{\beta}_H = \hat{\beta} - (X^{\mathsf T}X)^{-1} H^{\mathsf T} [H (X^{\mathsf T}X)^{-1} H^{\mathsf T}]^{-1} (H\hat{\beta} - d),\]检验统计量
\[\frac{(H\hat{\beta} - d)^{\mathsf T} [H(X^{\mathsf T}X)^{-1} H^{\mathsf T}]^{-1} (H\hat{\beta} - d)/q}{Q_e/(n-k-1)} \sim F(q, n-k-1).\]