数学期望

离散型随机变量的数学期望

设离散型随机变量 XX 的分布列 P(X=xi)=piP(X=x_i)=p_ii=1,2,i=1,2,\cdots)。若级数 i=1xipi\sum\limits_{i=1}^\infty x_ip_i 绝对收敛,即 i=1xipi<\sum\limits_{i=1}^\infty |x_i|p_i < \infty,则称 i=1xipi\sum\limits_{i=1}^\infty x_i p_iXX数学期望或均值,记为 E(X)E(X)。即

E(X)=i=1xipiE(X) = \sum\limits_{i=1}^\infty x_i p_i

i=1xipi\sum\limits_{i=1}^\infty |x_i| p_i 发散时,称 XX 的数学期望不存在。

连续型随机变量的数学期望

XX 是连续型随机变量,其密度函数为 f(x)f(x),若 +xf(x)dx\int_{-\infty}^{+\infty} xf(x)dx 绝对收敛,则称 +xf(x)dx\int_{-\infty}^{+\infty} xf(x)dxXX数学期望或均值,即

E(X)=+xf(x)dxE(X) = \int_{-\infty}^{+\infty}xf(x)dx

物理意义:以 f(x)f(x) 为密度的一维连续质点系重心坐标。

二维随机变量函数的数学期望

Z=g(X,Y)Z = g(X,Y)g(x,y)g(x,y) 为连续函数。

  1. (X,Y)(X,Y) 是二维离散型随机变量,其分布列 P(X=xi,Y=yi)=pijP(X=x_i,Y=y_i)=p_{ij}i,j=1,2,i,j=1,2,\cdots),且

    i=1j=1g(xi,yj)pij<+\sum\limits_{i=1}^\infty\sum\limits_{j=1}^\infty |g(x_i,y_j)| p_{ij} < +\infty

    E(Z)=E[g(X,Y)]=i=1j=1g(xi,yj)pijE(Z) = E[g(X,Y)] = \sum\limits_{i=1}^\infty \sum\limits_{j=1}^\infty g(x_i,y_j) p_{ij}

  2. X,YX,Y 是二维连续型随机变量,其概率密度为 f(x,y)f(x,y),且 infty++g(x,y)f(x,y)dxdy<+\int_{-infty}^{+\infty}\int_{-\infty}^{+\infty}|g(x,y)|f(x,y)dxdy < +\infty,则

    E(Z)=E[g(X,Y)]=++g(x,y)f(x,y)dxdyE(Z) = E[g(X,Y)] = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy

    特别的

    E(X)=++xf(x,y)dxdyE(Y)=++yf(x,y)dxdyE(X) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)dxdy \\ E(Y) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)dxdy

数学期望的性质

  1. CC 是常数,则 E(C)=CE(C)=C
  2. E(CX)=CE(X)E(CX) = CE(X)CC 是常数
  3. E[i=1nXi]=i=1nE(Xi)E[\sum\limits_{i=1}^n X_i] = \sum\limits_{i=1}^n E(X_i)
  4. X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立,则 E[i=1nXi]=i=1nE(Xi)E[\prod\limits_{i=1}^n X_i] = \prod\limits_{i=1}^n E(X_i)

方差

XX 是一个随机变量,若 E[XE(X)]2E[X-E(X)]^2 存在,则称 E[XE(X)]2E[X-E(X)]^2XX方差,记作 D(X)D(X),即

D(X)=E[XE(X)]2D(X) = E[X-E(X)]^2

D(X)\sqrt{D(X)}XX标准差或均方差,记为 σX\sigma_X,即

σX=D(X)\sigma_X = \sqrt{D(X)}

方差刻画了随机变量的取值对于其数学期望的离散程度。

计算方差的一个简化公式

D(X)=E(X2)[E(X)]2D(X) = E(X^2) - [E(X)]^2

方差的性质

  1. CC 是常数,则 D(C)=0D(C) = 0

  2. CC 是常数,则 D(CX)=C2D(x)D(CX) = C^2D(x)

  3. D(X+Y)=D(X)+D(Y)+2E{[XE(X)][YE(Y)]}D(X+Y) = D(X) + D(Y) + 2E\{[X-E(X)][Y-E(Y)]\}。特别的,若 XXYY 独立,则

    D(X+Y)=D(X)+D(Y)D(X+Y) = D(X) + D(Y)

  4. XXYY 独立,则 D(XY)=D(X)D(Y)+D(X)[E(Y)]2+D(Y)[E(X)]2D(XY) = D(X)D(Y) + D(X)[E(Y)]^2 + D(Y)[E(X)]^2

  5. D(X)=0P(X=C)=1D(X)=0 \Leftrightarrow P(X=C)=1,且 C=E(X)C=E(X)

常用分布的期望和方差

  • XB(n,p)X\sim B(n,p),则 E(X)=npE(X)=npD(X)=np(1p)D(X)=np(1-p)
  • XP(λ)X\sim P(\lambda),则 E(X)=D(X)=λE(X)=D(X)=\lambdaλ>0\lambda > 0
  • XG(p)X \sim G(p),则 E(X)=1pE(X) = \frac{1}{p}D(X)=1pp2D(X)=\frac{1-p}{p^2}
  • XU(a,b)X \sim U(a,b),则 E(X)=a+b2E(X) = \frac{a+b}{2}D(X)=(ba)212D(X) = \frac{(b-a)^2}{12}
  • XE(λ)X\sim E(\lambda),则 E(X)=1λE(X)=\frac{1}{\lambda}D(X)=1λ2D(X) = \frac{1}{\lambda^2}
  • XN(μ,σ2)X\sim N(\mu,\sigma^2),则 E(X)=μE(X)=\muD(X)=σ2D(X)=\sigma^2σ>0\sigma > 0

协方差

E{[XE(X)][YE(Y)]}E\{[X-E(X)][Y-E(Y)]\} 存在,称它为随机变量 XXYY协方差,记为 Cov(X,Y)\operatorname{Cov}(X,Y),即

Cov(X,Y)=E{[XE(X)][YE(Y)]}\operatorname{Cov}(X,Y) = E\{[X-E(X)][Y-E(Y)] \}

此时

D(X±Y)=D(X)+D(Y)±Cov(X,Y)D(X \pm Y) = D(X) + D(Y) \pm \operatorname{Cov}(X,Y)

  • Cov(X,Y)>0\operatorname{Cov}(X,Y) > 0 时,称 XXYY 正相关
  • Cov(X,Y)<0\operatorname{Cov}(X,Y) < 0 时,称 XXYY 负相关
  • Cov(X,Y)=0\operatorname{Cov}(X,Y) = 0 时,称 XXYY 不相关

协方差是表示两个随机变量之间线性相关程度的一个有量纲的数字特征。

计算协方差的一个简化公式

Cov(X,Y)=E(XY)E(X)E(Y)\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y)

协方差的性质

  1. Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X)Cov(X,a)=0\operatorname{Cov}(X,a)=0
  2. D(X)=Cov(X,X)D(X) = \operatorname{Cov}(X,X)
  3. Cov(aX,bY)=abCov(X,Y)\operatorname{Cov}(aX,bY) = ab\operatorname{Cov}(X,Y)
  4. Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)\operatorname{Cov}(X_1+X_2,Y) = \operatorname{Cov}(X_1,Y) + \operatorname{Cov}(X_2, Y)
  5. XXYY 独立,则 Cov(X,Y)=0\operatorname{Cov}(X,Y)=0

相关系数

Cov(X,Y)\operatorname{Cov}(X,Y) 存在,且 D(X)>0D(X)>0D(Y)>0D(Y)>0,称

ρXY=Cov(X,Y)D(X)D(Y)\rho_{XY} = \frac{\operatorname{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}

为随机变量 XXYY相关系数

相关系数是表示两个随机变量之间线性相关程度的一个无量纲的数字特征。

相关系数的性质

  1. ρ1|\rho| \le 1
  2. ρ=1|\rho| = 1 \Leftrightarrow 存在常数 a,ba,b,使 P(Y=a+bX)=1P(Y = a + bX) = 1。当 ρ=1\rho = 1 时,b>0b>0;当 ρ=1\rho = -1 时,b<0b<0
  3. ρ=0Cov(X,Y)=0E(XY)=E(X)E(Y)D(X±Y)=D(X)+D(Y)\rho = 0 \Leftrightarrow \operatorname{Cov}(X,Y) = 0 \Leftrightarrow E(XY) = E(X)E(Y) \Leftrightarrow D(X\pm Y) = D(X) + D(Y)

原点矩

E(Xk)E(X^k)k=1,2,k=1,2,\cdots)存在,则称 E(Xk)E(X^k)XXkk 阶原点矩,记为 ak=E(Xk)a_k = E(X^k)

中心距

E[XE(X)]kE[X-E(X)]^kk=1,2,k=1,2,\cdots)存在,则称 E[XE(X)]kE[X-E(X)]^kXXkk 阶中心距,记为 βk=E[XE(X)]k\beta_k = E[X - E(X)]^k

混合原点矩

E(XkYl)E(X^kY^l)k,l=1,2,k,l=1,2,\cdots)存在,则称 E(XkYl)E(X^kY^l)XXYYk+lk+l 阶混合原点矩,记为 ak,l=E(XkYl)a_{k,l} = E(X^kY^l)

混合中心距

E{[XE(X)]k[YE(Y)]l}E\left\{[X-E(X)]^k[Y-E(Y)]^l \right\}k,l=1,2,k,l=1,2,\cdots)存在,则称 E{[XE(X)]k[YE(Y)]l}E\left\{[X-E(X)]^k[Y-E(Y)]^l \right\}XXYYk+lk+l 阶混合中心距,记为 βk,l=E{[XE(X)]k[YE(Y)]l}\beta_{k,l} = E\left\{[X-E(X)]^k[Y-E(Y)]^l \right\}

大数定律

依概率收敛

Z1,Z2,,Zn,Z_1,Z_2,\cdots,Z_n,\cdots 是一个随机变量序列,aa 是一个常数,若对任意 ε>0\varepsilon > 0

limnP(Zna<ε)=1\lim\limits_{n\to\infty} P(|Z_n - a| < \varepsilon) = 1

limnP(Znaε)=0\lim\limits_{n\to\infty} P(|Z_n - a|\ge \varepsilon) = 0

则称序列 Z1,Z2,,Zn,Z_1,Z_2,\cdots,Z_n,\cdots 依概率收敛aa,记为

limnZn=aZna(n)\lim\limits_{n\to\infty}Z_n = a \quad 或 \quad Z_n \to a(n\to\infty)

切比雪夫不等式

对任意随机变量 XX,若 D(X)D(X) 存在,则对任意 ε>0\varepsilon > 0

P[XE(X)ε]D(X)ε2P[|X-E(X)|\ge \varepsilon] \le \frac{D(X)}{\varepsilon^2}

P[XE(X)<ε]1D(X)ε2P[|X-E(X)|<\varepsilon] \ge 1 - \frac{D(X)}{\varepsilon^2}

伯努利大数定律

YnY_nnn 重伯努利试验中事件 AA 发生的次数,pp0<p<10<p<1)是事件 AA 发生的概率,则对任给的 ε>0\varepsilon > 0,有

limnP{Ynnpε}=0\lim\limits_{n\to\infty}P\left\{\left|\frac{Y_n}{n} - p\right|\ge \varepsilon\right\} = 0

limnP{Ynnp<ε}=1\lim\limits_{n\to\infty}P\left\{\left|\frac{Y_n}{n} - p\right|< \varepsilon\right\} = 1

伯努利大数定律提供了用频率来确定概率的理论依据。

独立同分布随机变量序列

若随机变量序列 X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots 相互独立,对 n2n\ge 2X1,X2,,XnX_1,X_2,\cdots,X_n 独立,且有相同的分布函数,则称 X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots 是独立同分布的随机变量序列。

切比雪夫大数定律

X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots 是相互独立的随机变量序列。它们都有有限的方差,并且方差有共同的上界,即 D(Xi)CD(X_i) \le Ci=1,2,i=1,2,\cdots),则对任意 ε>0\varepsilon > 0,有

limnP{1ni=1nXi1ni=1nE(Xi)ε}=0\lim\limits_{n\to\infty}P \left\{\left|\frac{1}{n}\sum\limits_{i=1}^n X_i - \frac{1}{n}\sum\limits_{i=1}^n E(X_i)\right| \ge \varepsilon \right\} = 0

辛钦大数定律

X1,X2,X_1,X_2,\cdots 是独立同分布的随机变量序列,且 E(Xi)=μE(X_i) = \mu,(i=1,2,i=1,2,\cdots),则对任给 ε>0\varepsilon > 0,有

limnP{1nXiμε}=0\lim\limits_{n\to\infty} P\{|\frac{1}{n}X_i-\mu|\ge \varepsilon \} = 0

这是随机变量序列的算术平均值稳定性的较确切的解释。

中心极限定理

X1,X2,X_1,X_2,\cdots 是独立同分布的随机变量序列,且 E(Xi)=μE(X_i) = \muD(Xi)=σ2>0D(X_i) = \sigma^2 > 0i=1,2,i=1,2,\cdots)存在,则对充分大的 nn,有

i=1nXi近似N(nμ,nσ2)P(a<i=1nXib)Φ(bnμnσ)Φ(anμnσ\sum\limits_{i=1}^n X_i \overset{近似}{\sim} N(n\mu,n\sigma^2) \\ P(a<\sum\limits_{i=1}^n X_i \le b) \approx \Phi(\frac{b-n\mu}{\sqrt{n}\sigma}) - \Phi(\frac{a-n\mu}{\sqrt{n}\sigma}

此定理也称为中心极限定理

棣莫佛——拉普拉斯定理

设随机变量 YnY_n 服从参数 n,pn,p0<p<10<p<1)的二项分布,则对充分大的 nn,有

Yn近似N(np,npq)Y_n \overset{近似}{\sim} N(np,npq)

其中 q=1pq = 1-p,即

P(a<Ynb)Φ(bnpnpq)Φ(anpnpq)P(a<Y_n \le b) \approx \Phi(\frac{b-np}{\sqrt{npq}}) - \Phi(\frac{a-np}{\sqrt{npq}})

在实际中,当 0.1<p<0.90.1<p < 0.9npq>9npq > 9 时,用正态分布近似;

p0.1p\le 0.1n10n\ge 10 时,用泊松分布近似。

不难发现,棣莫佛——拉普拉斯定理是中心极限定理的一个特例。