数理统计

数理统计是以概率论为理论基础,研究怎样用有效的方法去收集、整理、分析带随机影响的数据,以便对所研究的问题给出估计和推断,为决策提供依据和建议。

总体和个体

  • 总体:研究对象的全体。
  • 个体:总体中每个成员。

根据总体中个体的数目是否有限可以把总体分为有限总体无限总体

样本

  • 样本:按一定规则从总体中抽取的一部分个体。
  • 样本容量:样本中所含个体的数目。
  • 抽样:抽取样本的过程。

简单随机样本

X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立且与总体 XX 有相同的分布,则称 X1,X2,,XnX_1,X_2,\cdots,X_n 为来自总体 XX 的一个容量为 nn简单随机样本,简称为 XX 的一个样本。获得简单随机样本的抽样称为简单随机抽样

样本 (X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的每一个观察值 (x1,x2,,xn)(x_1,x_2,\cdots,x_n) 称为样本值或样本的一次实现。

样本值的集合称为样本空间

三大分布

χ2\chi^2 分布

X1,X2,,XnX_1, X_2, \cdots, X_n 相互独立,都服从标准正态分布 N(0,1)N(0,1),则称随机变量

Y=i=1nXi2Y = \sum\limits_{i=1}^nX_i^2

服从自由度为 nnχ2\chi^2 分布,记为 Yχ2(n)Y \sim \chi^2(n)

χ2\chi^2 分布的性质

  1. Xχ2(n)X \sim \chi^2(n),则 E(X)=nE(X)=nD(X)=2nD(X)=2n
  2. X1,X2,,XmX_1,X_2,\cdots,X_m 独立,且 Xiχ2(ni)X_i \sim \chi^2(n_i),则 i=1mXiχ2(i=1mni)\sum\limits_{i=1}^m X_i \sim\chi^2(\sum\limits_{i=1}^m n_i)

χ2\chi^2 分布的上侧 α\alpha 分位数或临界值

α(0<α<1)\alpha(0<\alpha<1),称满足等式 P(Xχα2(n))=αP(X\ge \chi_\alpha^2(n)) = \alpha 的点 χα2(n)\chi_\alpha^2(n)χ2(n)\chi^2(n) 分布的上侧 α\alpha 分位数或临界值。

tt 分布

X,YX,Y 相互独立,且 XN(0,1)X \sim N(0,1)Yχ2(n)Y\sim \chi^2(n),则称随机变量

T=XYnT = \frac{X}{\sqrt{\frac{Y}{n}}}

服从自由度为 nntt 分布,记为 Tt(n)T \sim t(n)

tt 分布的上侧 α\alpha 分位数或临界值

α(0<α<1)\alpha(0<\alpha<1),称满足等式 P(Ttα(n))=αP(T\ge t_\alpha(n)) = \alpha 的点 tα(n)t_\alpha(n)t(n)t(n) 分布的上侧 α\alpha 分位数或临界值。

FF 分布

X,YX,Y 相互独立,Xχ2(n1)X\sim\chi^2(n_1)Yχ2(n2)Y\sim\chi^2(n_2),则称随机变量

F=X/n1Y/n2F = \frac{X/n_1}{Y/n_2}

服从第一自由度为 n1n_1,第二自由度为 n2n_2FF 分布,记为 FF(n1,n2)F\sim F(n_1,n_2)

FF 分布的上侧 α\alpha 分位数或临界值

α(0<α<1)\alpha(0<\alpha<1),称满足等式 P(FFα(n1,n2))=αP(F\ge F_\alpha(n_1,n_2)) = \alpha 的点 Fα(n1,n2)F_\alpha(n_1,n_2)F(n1,n2)F(n_1,n_2) 分布的上侧 α\alpha 分位数或临界值。

统计量

X1,X2,,XnX_1,X_2,\cdots,X_n 为总体 XX 的容量为 nn 的样本,T(X1,X2,,Xn)T(X_1,X_2,\cdots,X_n) 是定义在样本空间上,不含未知参数的连续函数,则称 T(X1,X2,,Xn)T(X_1,X_2,\cdots,X_n) 为一个统计量。

常用统计量

  1. 样本均值X=1ni=1nXi\overline{X} = \frac{1}{n}\sum\limits_{i=1}^n X_i

  2. 样本方差S2=1n1i=1n(XiX)2S^2 = \frac{1}{n-1}\sum\limits_{i=1}^n(X_i - \overline{X})^2

  3. 样本标准差S=1n1i=1n(XiX)2S = \sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(X_i - \overline{X})^2}

  4. 样本 kk 阶原点矩Ak=1ni=1nXikA_k = \frac{1}{n}\sum\limits_{i=1}^nX_i^k

  5. 样本 kk 阶中心原点矩Bk=1ni=1n(XiX)kB_k = \frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^k

  6. 顺序统计量:设 X1,X2,,XnX_1, X_2, \cdots, X_n 为总体 XX 的一个样本,X1,X2,,xnX_1,X_2,\cdots,x_n 是样本值,将它们按大小次序排列,得

    x(1)x(2)x(n)x_{(1)} \le x_{(2)} \le \cdots \le x_{(n)}

    X(i)X_{(i)} 为第 ii 个顺序统计量,如果不论样本 X1,X2,,XnX_1, X_2, \cdots, X_n 取哪组观测值 x1,x2,,xnx_1, x_2, \cdots, x_nX(i)X_{(i)} 总是取 x(i)x_{(i)} 为观测值,即

    X(1)X(2)X(n)X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)}

    特别的,称 X(1)X_{(1)}最小顺序统计量X(n)X_{(n)}最大顺序统计量

  7. 样本中位数

    M={X(n+12)n为奇数12[X(n2)+X(n2+1)]n为偶数M = \begin{cases} X_{(\frac{n+1}{2})} & n为奇数 \\ \frac{1}{2}\left[X_{(\frac{n}{2})} + X_{(\frac{n}{2}+1)} \right] & n为偶数 \end{cases}

  8. 样本极差R=X(n)X(1)R=X_{(n)} - X_{(1)}

抽样分布

当用统计量推断总体时,必须知道统计量的分布,统计量的分布属于样本函数的分布,人们把样本函数的分布统称为抽样分布

单个正态总体统计量的分布

样本均值的分布

X1,X2,,XnX_1, X_2, \cdots, X_n 为总体 N(μ,σ2)N(\mu,\sigma^2) 的一个样本,样本均值 X=1ni=1nXi\overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i,则

XN(μ,σ2n)\overline{X} \sim N(\mu,\frac{\sigma^2}{n})

样本方差的分布

X1,X2,,XnX_1,X_2,\cdots,X_n 为总体 N(μ,σ2)N(\mu,\sigma^2) 的一个样本,样本方差 S2=1n1i=1n(XiX)2S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (X_i-\overline{X})^2,则

  1. 样本方差 S2S^2 与样本均值 X\overline{X} 相互独立;
  2. (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

定理3

X1,X2,,XnX_1,X_2,\cdots,X_n 为总体 N(μ,σ2)N(\mu,\sigma^2) 的一个样本,X\overline{X}S2S^2 分别为样本均值和样本方差,则

n(Xμ)St(n1)\frac{\sqrt{n}(\overline{X}-\mu)}{S} \sim t(n-1)

两个正态总体统计量的分布

定理4

X1,X2,,Xn1X_1,X_2,\cdots,X_{n_1}Y1,Y2,,Yn2Y_1,Y_2,\cdots,Y_{n_2} 分别是来自总体 N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ2,σ22)N(\mu_2,\sigma_2^2) 的两个样本,它们相互独立,样本均值分别为 X\overline{X}Y\overline{Y},样本方差分别为 S12S_1^2S22S^2_2,则

S12/σ12S22/σ22F(n11,n21)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1)

σ12=σ22=σ2\sigma_1^2=\sigma_2^2=\sigma^2

XY(μ1μ2)Sw1n1+1n2t(n1+n22)\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2)

其中

Sw=(n11)S12+(n21)S22n1+n22S_w = \sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}