概率图模型
概率图模型
概率图模型使用图的方式表示概率分布。为了在图中添加各种概率,首先总结一下随机变量分布的一些规则:
Sum Rule:p(x1)=∫p(x1,x2)dx2Product Rule:p(x1,x2)=p(x1∣x2)p(x2)Chain Rule:p(x1,x2,⋯ ,xp)=∏i=1pp(xi∣xi+1,xi+2⋯xp)Bayesian Rule:p(x1∣x2)=p(x2∣x1)p(x1)p(x2)\begin{split}
&Sum\ Rule:p(x_1)=\int p(x_1,x_2)dx_2\\
&Product\ Rule:p(x_1,x_2)=p(x_1|x_2)p(x_2)\\
&Chain\ Rule:p(x_1,x_2,\cdots,x_p)=\prod\limits_{i=1}^pp(x_i|x_{i+1,x_{i+2} \cdots}x_p)\\
&Bayesian\ Rule:p(x_1|x_2)=\frac{p(x_2|x_1)p(x_1)}{p(x_2)}
\end{split}
Sum Rule:p(x1)= ...
高斯混合模型
高斯混合模型
概述
为了解决高斯模型的单峰性的问题,我们引入多个高斯模型的加权平均来拟合多峰数据:
p(x)=∑k=1KαkN(μk,Σk)p(x)=\sum\limits_{k=1}^K\alpha_k\mathcal{N}(\mu_k,\Sigma_k)
p(x)=k=1∑KαkN(μk,Σk)
引入隐变量 zzz,这个变量表示对应的样本 xxx 属于哪一个高斯分布,这个变量是一个离散的随机变量:
p(z=i)=pi,∑i=1kp(z=i)=1p(z=i)=p_i,\sum\limits_{i=1}^kp(z=i)=1
p(z=i)=pi,i=1∑kp(z=i)=1
作为一个生成式模型,高斯混合模型通过隐变量 zzz 的分布来生成样本。用概率图来表示:
graph LR;
z((z))-->x((x))
其中,节点 zzz 就是上面的概率,xxx 就是生成的高斯分布。于是对 p(x)p(x)p(x):
p(x)=∑zp(x,z)=∑k=1Kp(x,z=k)=∑k=1Kp(z=k)p(x∣z=k)p(x)=\sum\limits_zp(x,z)=\su ...
期望最大
期望最大
狭义 EM
期望最大算法的目的是解决具有隐变量的混合模型的参数估计(极大似然估计)。MLE 对 p(x∣θ)p(x|\theta)p(x∣θ) 参数的估计记为:θMLE=argmaxθlogp(x∣θ)\theta_{MLE}=\mathop{argmax}\limits_\theta\log p(x|\theta)θMLE=θargmaxlogp(x∣θ)。EM 算法对这个问题的解决方法是采用迭代的方法:
θt+1=argmaxθ∫zlog[p(x,z∣θ)]p(z∣x,θt)dz=Ez∣x,θt[logp(x,z∣θ)]\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz=\mathbb{E}_{z|x,\theta^t}[\log p(x,z|\theta)]
θt+1=θargmax∫zlog[p(x,z∣θ)]p(z∣x,θt)dz=Ez∣x,θt[logp(x,z∣θ)]
这个公式包含了迭代的两步:
E step:计算 log ...
场
数量场
定义
若对于空间区域 GGG 内任一点 MMM,都有一确定数量 f(M)f(M)f(M) 与之对应,则称这个空间区域 GGG 内确定了一个数量场
方向导数
定义
设 u=f(P)u = f(P)u=f(P) 是定义在 Ω\OmegaΩ 上的一数量场,P0∈ΩP_0 \in \OmegaP0∈Ω,以 P0P_0P0 为始点作一射线,若方向与向量 l⃗\vec{l}l 一致,在此射线上任取一点 P≠P0P \neq P_0P=P0,若极限
limP→P0f(P)−f(P0)∣P0P‾∣\lim\limits_{P\to P_0}\frac{f(P) - f(P_0)}{\left\vert\overline{P_0P} \right\vert}
P→P0limP0Pf(P)−f(P0)
存在,称此极限值为数量场 u=f(P)u = f(P)u=f(P) 在点 P0P_0P0 处沿 l⃗\vec{l}l 方向的方向导数,记为 ∂u∂l⃗∣P0\frac{\partial u}{\partial \vec{l}}\big|_{P_0}∂l∂uP0
计 ...
Transformer 发展简史
前言
高二下学期,一次偶然的机会,我接触到了 AI。当时的我加入到了一位好朋友的行列中,一起学习机器学习。机器学习(Machine Learning)是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 在那段快乐的时光,我接触到了许多机器学习领域的知识。在听完吴恩达的机器学习课程后,我开始接触深度学习。深度学习(Deep Learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。 很快,一起学习 AI 的队伍扩充到了 3 人。依稀记得,在晚自习课间,我们仨在机房讨论反向传播的原理。你或许难以想象,当我们手搓出一个可以实现任意层隐藏层的普通神经网络时,内心是多么的喜悦。高二结束之际,随着 GPT-3.5 的爆火,人工智能逐渐走进大众的视野。在高三的闲暇时间,我接触到了 Transformer,被其巧妙的结构所迷住,而这也是写这篇文章的原因之一。
发展历史
在自然语言处理(NLP)领域中,机器翻译(Machine Translation)任务自提出起就备受关注,许多模型都对其发出了挑战,RNN就是其中一个典型代表 ...
静电场
库仑定律
定义 q1q_1q1 对 q2q_2q2 施加的力
F⃗=14πε0q1q2r2er⃗\vec{F} = \frac{1}{4\pi\varepsilon_0} \frac{q_1 q_2}{r^2} \vec{e_r}
F=4πε01r2q1q2er
其中 er⃗\vec{e_r}er 是由 q1q_1q1 指向 q2q_2q2 的单位向量
电场强度
描述电场中各点电场强弱和方向的物理量
E⃗=F⃗q0\vec{E} = \frac{\vec{F}}{q_0}
E=q0F
具体到静电场中,拿点电荷来举例
E⃗=F⃗q0=14πε0qr2er⃗\vec{E} = \frac{\vec{F}}{q_0} = \frac{1}{4\pi\varepsilon_0}\frac{q}{r^2} \vec{e_r}
E=q0F=4πε01r2qer
根据力的可叠加性,由此可以计算复杂带电体在空间某一点的电场强度
下面列出一些常见带电体的公式
均匀带电圆环轴线上的电场强度
E=xQ4πε0(x2+R2)32=λxR2ε0(x2+R2)32E = ...
无题
轻量化卷积神经网络综述
MobileNetV3
激活函数
MobileNetV3 使用了 h-swish\mathrm{h\text{-}swish}h-swish:
h-swish[x]=xReLU6(x+3)6\mathrm{h\text{-}swish}[x] = x\frac{\mathrm{ReLU6}(x+3)}{6}
h-swish[x]=x6ReLU6(x+3)
首先来看一下 swishswishswish:
swish[x]=xσ(x)swish[x] = x \sigma(x)
swish[x]=xσ(x)
当 x→+∞x\to +\inftyx→+∞ 时,σ(x)→1\sigma(x) \to 1σ(x)→1,swishswishswish 退化成 xxx,当 x→−∞x\to -\inftyx→−∞ 时,σ(x)→0\sigma(x) \to 0σ(x)→0,swishswishswish 等于 000。不难看出,swishswishswish 是 ReLU\mathrm{ReLU}ReLU 的 soft version。
既然有了 ReLU\mathrm{R ...
Circuit
基本概念
电源与负载
电源:把能够输出电能或电信号的器件称为电源
负载:把要求输入电能或电信号的器件称为负载
线性元件
线性元件:当元件的电磁特性为线性关系时称为线性元件
非线性元件:当元件的电磁特性为非线性关系时称为非线性元件
线性电路:有电源和线性元件组成的电路称为线性电路
非线性电路:不能用线性方程来描述的电路称为非线性电路
时变参数元件
时变参数元件:参数随时间而变化的元件称为时变参数元件
非时变参数元件:参数不随时间而变化的元件称为非时变参数元件
集中参数元件
集中参数元件:当元件各向尺寸远小于电磁量工作频率所对应的电磁波波长而无需考虑电磁量的空间分布时,这种元件称为集中参数元件
集中参数电路:仅含集中参数元件的电路称为集中参数电路
分布参数电路:需要考虑电磁量的空间分布性的电路称为分布参数电路
直流和交流
直流:量值和方向不随时间变化的电流称为直流
交流:随时间作周期性变化且平均值为零的电流称为交流
直流电压与交变电压
当电压的量值和极性不随时间变化时,称为直流电压
作周期性变化且平均值为零的电压称为交变电压
关联参考方向
将一个元件上的电压和电流 ...
微分方程
高阶线性微分方程
常系数齐次线性微分方程
定义
在二阶齐次线性微分方程
y′′+P(x)y′+Q(x)y=0y'' + P(x)y' + Q(x)y = 0
y′′+P(x)y′+Q(x)y=0
中,如果 y′y'y′,yyy 的系数 P(x)P(x)P(x),Q(x)Q(x)Q(x) 均为常数
y′′+py′+qy=0y'' + py' + qy = 0
y′′+py′+qy=0
其中 p,qp,qp,q 是常数,那么称其为二阶常系数齐次线性微分方程。如果 p,qp,qp,q 不全为常数,称其为二阶变系数齐次线性微分方程。
解法
称 r2+pr+q=0r^2 + pr + q=0r2+pr+q=0 为微分方程的特征方程。
微分方程的通解有三种不同的情形
特征方程有两个不相等的实根:r1≠r2r_1 \neq r_2r1=r2
微分方程的通解为
y=C1er1x+C2er2xy = C_1 e^{r_1x} + C_2 e^{r_2x}
y=C1er1x+C2er2x
特征方程有两个相等的实根:r ...
矩阵
分块矩阵
加法
设 A=(A11⋯A1t⋮⋱⋮As1⋯Ast)A=\begin{pmatrix}A_{11}&\cdots&A_{1t}\\\vdots&\ddots&\vdots\\A_{s1}&\cdots&A_{st}\end{pmatrix}A=A11⋮As1⋯⋱⋯A1t⋮Ast,
B=(B11⋯B1t⋮⋱⋮Bs1⋯Bst)B = \begin{pmatrix}B_{11}&\cdots&B_{1t}\\\vdots&\ddots&\vdots\\B_{s1}&\cdots&B_{st}\end{pmatrix}B=B11⋮Bs1⋯⋱⋯B1t⋮Bst,则
A+B=(A11+B11⋯A1t+B1t⋮⋱⋮As1+Bs1⋯Ast+Bst)A + B = \begin{pmatrix}A_{11} + B_{11}&\cdots&A_{1t}+B_{1t}\\\vdots&\ddots&\vdots\\A_{s1}+B_{s ...