参数估计
参数估计
设有一个统计总体,总体的分布函数为 F(x,θ)F(x,\theta)F(x,θ),其中 θ\thetaθ 为未知参数。现从该总体取样本 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn,要依据样本对参数 θ\thetaθ 作出估计,或估计 θ\thetaθ 的某个已知函数 g(θ)g(\theta)g(θ)。这类问题称为参数估计。
点估计
由样本 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 确定一个统计量 θ^=θ(X1,X2,⋯ ,Xn)\hat{\theta} = \theta(X_1,X_2,\cdots,X_n)θ^=θ(X1,X2,⋯,Xn) 用它估计总体的未知参数 θ\thetaθ,称为总体参数的估计量。当具体的样本抽出后,可求出样本统计量的值 θ^=θ(x1,x2,⋯ ,xn)\hat{\theta} = \theta(x_1,x_2,\cdots,x_n)θ^=θ(x1,x2,⋯,xn) 用它作为总体参数的估计值,称为总体参数的点估计值。
矩估计
统计思想:用样本矩估计 ...
波动光学
波动光学
相干光
光波相干的条件:
频率相同
相位差恒定
振动方向相同
注意:两个普通光源或同一普通光源的不同部分所发出的光是不相干的
那么如何获得相干光呢?
振幅分割法:薄膜干涉、牛顿环、迈克耳孙干涉仪
波阵面分割法:杨氏双缝干涉实验、劳埃德镜
干涉
杨氏双缝干涉实验
光程差:δ=dsinθ≈dDx\delta = d\sin\theta \approx \frac{d}{D}xδ=dsinθ≈Ddx
当 δ\deltaδ 满足 δ=±kλ,k=0,1,2,⋯\delta = \pm k\lambda,\quad k = 0,1,2,\cdotsδ=±kλ,k=0,1,2,⋯ 时,对应的条纹为明条纹。k=0k = 0k=0 对应的条纹称为中央明纹。k=1,2,⋯k=1,2,\cdotsk=1,2,⋯ 对应的明条纹分别叫第一级、第二级……明条纹。
劳埃德镜
半波损失:光由光速较大的介质(光疏)射向光速较小的介质(光密)时,反射光相位突变 π\piπ
薄膜干涉
两束反射相干光的光程差:δ=2en22−n12sin2i+λ2\delta = 2e\sqrt{n_2^2- ...
数学期望
数学期望
离散型随机变量的数学期望
设离散型随机变量 XXX 的分布列 P(X=xi)=piP(X=x_i)=p_iP(X=xi)=pi(i=1,2,⋯i=1,2,\cdotsi=1,2,⋯)。若级数 ∑i=1∞xipi\sum\limits_{i=1}^\infty x_ip_ii=1∑∞xipi 绝对收敛,即 ∑i=1∞∣xi∣pi<∞\sum\limits_{i=1}^\infty |x_i|p_i < \inftyi=1∑∞∣xi∣pi<∞,则称 ∑i=1∞xipi\sum\limits_{i=1}^\infty x_i p_ii=1∑∞xipi 为 XXX 的数学期望或均值,记为 E(X)E(X)E(X)。即
E(X)=∑i=1∞xipiE(X) = \sum\limits_{i=1}^\infty x_i p_i
E(X)=i=1∑∞xipi
当 ∑i=1∞∣xi∣pi\sum\limits_{i=1}^\infty |x_i| p_ii=1∑∞∣xi∣pi 发散时,称 XXX 的数学期望不存在。
连续型随机变量的数学期望 ...
数理统计
数理统计
数理统计是以概率论为理论基础,研究怎样用有效的方法去收集、整理、分析带随机影响的数据,以便对所研究的问题给出估计和推断,为决策提供依据和建议。
总体和个体
总体:研究对象的全体。
个体:总体中每个成员。
根据总体中个体的数目是否有限可以把总体分为有限总体和无限总体。
样本
样本:按一定规则从总体中抽取的一部分个体。
样本容量:样本中所含个体的数目。
抽样:抽取样本的过程。
简单随机样本
若 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 相互独立且与总体 XXX 有相同的分布,则称 X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn 为来自总体 XXX 的一个容量为 nnn 的简单随机样本,简称为 XXX 的一个样本。获得简单随机样本的抽样称为简单随机抽样。
样本 (X1,X2,⋯ ,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn) 的每一个观察值 (x1,x2,⋯ ,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn) 称为样本值或样本的一次实 ...
傅里叶变换
傅里叶变换
傅里叶级数的物理含义
fT(t)=A0+∑n=1+∞Ancos(nω0t+θn)f_T(t) = A_0 + \sum\limits_{n=1}^{+\infty} A_n \cos(n\omega_0t + \theta_n)
fT(t)=A0+n=1∑+∞Ancos(nω0t+θn)
含义:周期信号可以分解为一系列固定频率的简谐波之和。
傅里叶级数的三角形式
Dirichlet 定理:设 fT(t)f_T(t)fT(t) 是以 TTT 为周期的实值函数,且在区间 [−T2,T2][-\frac{T}{2}, \frac{T}{2}][−2T,2T] 上满足如下条件(称为 Dirichlet 条件):
连续或只有有限个第一类间断点;
只有有限个极值点。
则在 fT(t)f_T(t)fT(t) 的连续点处有
fT(t)=a02+∑n=1+∞(ancosnω0t+bnsinnω0t)f_T(t) = \frac{a_0}{2} + \sum\limits_{n=1}^{+\infty}(a_n\cos n\omega_0t + b_n\sin n ...
留数
留数
孤立奇点
设 z0z_0z0 为 f(z)f(z)f(z) 的奇点,且存在 δ>0\delta > 0δ>0,使得 f(z)f(z)f(z) 在去心领域 0<∣z−z0∣<δ0 < |z-z_0| < \delta0<∣z−z0∣<δ 内解析,则称 z0z_0z0 为 f(z)f(z)f(z) 的孤立奇点。
孤立奇点的分类
设 z0z_0z0 为 f(z)f(z)f(z) 的孤立奇点,将 f(z)f(z)f(z) 在 0<∣z−z0∣<δ0 < |z-z_0| < \delta0<∣z−z0∣<δ 内展开为洛朗级数:f(z)=∑n=−∞+∞an(z−z0)nf(z) = \sum\limits_{n=-\infty}^{+\infty} a_n(z-z_0)^nf(z)=n=−∞∑+∞an(z−z0)n,根据洛朗级数负幂次项的个数可以将孤立奇点分为以下三类:
可去奇点:不含负幂次项
NNN 阶极点:含有限个负幂次项,且最高负幂次为 NNN
本性奇点:含无限个负幂次项
判断 ...
线性分类
线性分类
对于分类任务,线性回归模型就无能为力了,但是我们可以在线性模型的函数进行后再加入一层激活函数(Activation Function),这个函数是非线性的,激活函数的反函数叫做链接函数(Link Function)。我们有两种线性分类的方式:
硬分类,我们直接需要输出观测对应的分类。这类模型的代表为:
线性判别分析(LDA,又叫 Fisher 判别)
感知机
软分类,产生不同类别的概率,这类算法根据概率方法的不同分为两种
生成式(根据贝叶斯定理先计算参数后验,再进行推断):高斯判别分析(GDA)和朴素贝叶斯(Naive Bayes)等为代表
判别式(直接对条件概率进行建模):Logistic 回归
感知机算法
我们选取激活函数为:
sign(a)={1a≥0−1a<0sign(a)=\begin{cases}
1 & a\ge 0 \\
-1 & a < 0
\end{cases}
sign(a)={1−1a≥0a<0
这样就可以将线性回归的结果映射到两分类的结果上了。
定义损失函数为错误分类的数目,比较直 ...
线性回归
线性回归
假设数据集为:
D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}\mathcal{D}=\{(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)\}
D={(x1,y1),(x2,y2),⋯,(xN,yN)}
后面我们记:
X=(x1,x2,⋯ ,xN)T,Y=(y1,y2,⋯ ,yN)TX=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T
X=(x1,x2,⋯,xN)T,Y=(y1,y2,⋯,yN)T
线性回归假设:
f(w)=wTxf(w)=w^Tx
f(w)=wTx
最小二乘法
对这个问题,采用二范数定义的平方误差来定义损失函数:
L(w)=∑i=1N∣∣wTxi−yi∣∣22L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2
L(w)=i=1∑N∣∣wTxi−yi∣∣22
展开得到:
L(w)=(wTx1−y1,⋯ ,wTxN−yN)⋅(wTx1−y1,⋯ ,wTxN−yN)T=(wTXT−YT)⋅(Xw−Y)=wTXT ...
机器学习基础
Introduction
对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
XN×p=(x1,x2,⋯ ,xN)T,xi=(xi1,xi2,⋯ ,xip)TX_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T
这个记号表示有 NNN 个样本,每个样本都是 ppp 维向量。其中每个观测都是由 p(x∣θ)p(x|\theta)p(x∣θ) 生成的。
频率派的观点
p(x∣θ)p(x|\theta)p(x∣θ)中的 θ\thetaθ 是一个常量。对于 NNN 个观测来说观测集的概率为 p(X∣θ)=iid∏i=1Np(xi∣θ))p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta))p(X∣θ)iid=i=1∏Np(xi∣θ)) 。为了求 θ\the ...
指数族分布
指数族分布
指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式:
p(x∣η)=h(x)exp(ηTϕ(x)−A(η))=1exp(A(η))h(x)exp(ηTϕ(x))p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x))
p(x∣η)=h(x)exp(ηTϕ(x)−A(η))=exp(A(η))1h(x)exp(ηTϕ(x))
其中,η\etaη 是参数向量,A(η)A(\eta)A(η) 是对数配分函数(归一化因子)。
在这个式子中, ϕ(x) \phi(x) ϕ(x) 叫做充分统计量,包含样本集合所有的信息,例如高斯分布中的均值和方差。充分统计量在在线学习中有应用,对于一个数据集,只需要记录样本的充分统计量即可。
对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布, ...