指数族分布
指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式:
p(x∣η)=h(x)exp(ηTϕ(x)−A(η))=exp(A(η))1h(x)exp(ηTϕ(x))
其中,η 是参数向量,A(η) 是对数配分函数(归一化因子)。
在这个式子中, ϕ(x) 叫做充分统计量,包含样本集合所有的信息,例如高斯分布中的均值和方差。充分统计量在在线学习中有应用,对于一个数据集,只需要记录样本的充分统计量即可。
对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布,可取先验是 Beta 分布,那么后验也是 Beta 分布。指数族分布常常具有共轭的性质,于是我们在模型选择以及推断具有很大的便利。
共轭先验的性质便于计算,同时,指数族分布满足最大熵的思想(无信息先验),也就是说对于经验分布利用最大熵原理导出的分布就是指数族分布。
观察到指数族分布的表达式类似线性模型,事实上,指数族分布很自然地导出广义线性模型:
y=f(wTx)y∣x∼ExpFamily
在更复杂的概率图模型中,例如在无向图模型中如受限玻尔兹曼机中,指数族分布也扮演着重要作用。
在推断的算法中,例如变分推断中,指数族分布也会大大简化计算。
一维高斯分布
一维高斯分布可以写成:
p(x∣θ)=2πσ1exp(−2σ2(x−μ)2)
将这个式子改写:
2πσ21exp(−2σ21(x2−2μx+μ2))=exp(log(2πσ2)−1/2)exp(−2σ21(−2μ1)(xx2)−2σ2μ2)
所以:
η=(σ2μ−2σ21)=(η1η2)
于是 A(η):
A(η)=−4η2η12+21log(−η2π)
充分统计量和对数配分函数的关系
对概率密度函数求积分:
exp(A(η))=∫h(x)exp(ηTϕ(x))dx
两边对参数求导:
exp(A(η))A′(η)=∫h(x)exp(ηTϕ(x))ϕ(x)dx⟹A′(η)=Ep(x∣η)[ϕ(x)]
类似的:
A′′(η)=Varp(x∣η)[ϕ(x)]
由于方差为正,于是 A(η) 一定是凸函数。
充分统计量和极大似然估计
对于独立全同采样得到的数据集 D={x1,x2,⋯,xN}。
ηMLE=argmaxηi=1∑Nlogp(xi∣η)=argmaxηi=1∑N(ηTϕ(xi)−A(η))⟹A′(ηMLE)=N1i=1∑Nϕ(xi)
由此可以看到,为了估算参数,只需要知道充分统计量就可以了。
最大熵
信息熵记为:
Entropy=∫−p(x)log(p(x))dx
一般地,对于完全随机的变量(等可能),信息熵最大。
我们的假设为最大熵原则,假设数据是离散分布的,k 个特征的概率分别为 pk,最大熵原理可以表述为:
max{H(p)}=min{k=1∑Kpklogpk} s.t. k=1∑Kpk=1
利用 Lagrange 乘子法:
L(p,λ)=k=1∑Kpklogpk+λ(1−k=1∑Kpk)
于是可得:
p1=p2=⋯=pK=K1
因此等可能的情况熵最大。
一个数据集 D,在这个数据集上的经验分布为 p^(x)=NCount(x),实际不可能满足所有的经验概率相同,于是在上面的最大熵原理中还需要加入这个经验分布的约束。
对任意一个函数,经验分布的经验期望可以求得为:
Ep^[f(x)]=Δ
于是:
max{H(p)}=min{k=1∑Npklogpk} s.t. k=1∑Npk=1,Ep[f(x)]=Δ
Lagrange 函数为:
L(p,λ0,λ)=k=1∑Npklogpk+λ0(1−k=1∑Npk)+λT(Δ−Ep[f(x)])
求导得到:
∂p(x)∂L=k=1∑N(logp(x)+1)−k=1∑Nλ0−k=1∑NλTf(x)⟹k=1∑Nlogp(x)+1−λ0−λTf(x)=0
由于数据集是任意的,对数据集求和也意味着求和项里面的每一项都是0:
p(x)=exp(λTf(x)+λ0−1)
这就是指数族分布。