线性分类
线性分类
对于分类任务,线性回归模型就无能为力了,但是我们可以在线性模型的函数进行后再加入一层激活函数(Activation Function),这个函数是非线性的,激活函数的反函数叫做链接函数(Link Function)。我们有两种线性分类的方式:
硬分类,我们直接需要输出观测对应的分类。这类模型的代表为:
线性判别分析(LDA,又叫 Fisher 判别)
感知机
软分类,产生不同类别的概率,这类算法根据概率方法的不同分为两种
生成式(根据贝叶斯定理先计算参数后验,再进行推断):高斯判别分析(GDA)和朴素贝叶斯(Naive Bayes)等为代表
判别式(直接对条件概率进行建模):Logistic 回归
感知机算法
我们选取激活函数为:
sign(a)={+1,a≥0−1,a<0sign(a)=\left\{\begin{matrix}+1,a\ge0\\-1,a\lt0\end{matrix}\right.
sign(a)={+1,a≥0−1,a<0
这样就可以将线性回归的结果映射到两分类的结果上了。
定义损失函数为错误分类的数目,比较直观的方式是使 ...
线性回归
线性回归
假设数据集为:
D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}\mathcal{D}=\{(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)\}
D={(x1,y1),(x2,y2),⋯,(xN,yN)}
后面我们记:
X=(x1,x2,⋯ ,xN)T,Y=(y1,y2,⋯ ,yN)TX=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T
X=(x1,x2,⋯,xN)T,Y=(y1,y2,⋯,yN)T
线性回归假设:
f(w)=wTxf(w)=w^Tx
f(w)=wTx
最小二乘法
对这个问题,采用二范数定义的平方误差来定义损失函数:
L(w)=∑i=1N∣∣wTxi−yi∣∣22L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2
L(w)=i=1∑N∣∣wTxi−yi∣∣22
展开得到:
L(w)=(wTx1−y1,⋯ ,wTxN−yN)⋅(wTx1−y1,⋯ ,wTxN−yN)T=(wTXT−YT)⋅(Xw−Y)=wTXT ...
机器学习基础
Introduction
对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:
XN×p=(x1,x2,⋯ ,xN)T,xi=(xi1,xi2,⋯ ,xip)TX_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}
XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T
这个记号表示有 NNN 个样本,每个样本都是 ppp 维向量。其中每个观测都是由 p(x∣θ)p(x|\theta)p(x∣θ) 生成的。
频率派的观点
p(x∣θ)p(x|\theta)p(x∣θ)中的 θ\thetaθ 是一个常量。对于 NNN 个观测来说观测集的概率为 p(X∣θ)=iid∏i=1Np(xi∣θ))p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta))p(X∣θ)iid=i=1∏Np(xi∣θ)) 。为了求 θ\the ...
指数族分布
指数族分布
指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式:
p(x∣η)=h(x)exp(ηTϕ(x)−A(η))=1exp(A(η))h(x)exp(ηTϕ(x))p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x))
p(x∣η)=h(x)exp(ηTϕ(x)−A(η))=exp(A(η))1h(x)exp(ηTϕ(x))
其中,η\etaη 是参数向量,A(η)A(\eta)A(η) 是对数配分函数(归一化因子)。
在这个式子中, ϕ(x) \phi(x) ϕ(x) 叫做充分统计量,包含样本集合所有的信息,例如高斯分布中的均值和方差。充分统计量在在线学习中有应用,对于一个数据集,只需要记录样本的充分统计量即可。
对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布, ...
概率图模型
概率图模型
概率图模型使用图的方式表示概率分布。为了在图中添加各种概率,首先总结一下随机变量分布的一些规则:
Sum Rule:p(x1)=∫p(x1,x2)dx2Product Rule:p(x1,x2)=p(x1∣x2)p(x2)Chain Rule:p(x1,x2,⋯ ,xp)=∏i=1pp(xi∣xi+1,xi+2⋯xp)Bayesian Rule:p(x1∣x2)=p(x2∣x1)p(x1)p(x2)\begin{split}
&Sum\ Rule:p(x_1)=\int p(x_1,x_2)dx_2\\
&Product\ Rule:p(x_1,x_2)=p(x_1|x_2)p(x_2)\\
&Chain\ Rule:p(x_1,x_2,\cdots,x_p)=\prod\limits_{i=1}^pp(x_i|x_{i+1,x_{i+2} \cdots}x_p)\\
&Bayesian\ Rule:p(x_1|x_2)=\frac{p(x_2|x_1)p(x_1)}{p(x_2)}
\end{split}
Sum Rule:p(x1)= ...
高斯混合模型
高斯混合模型
概述
为了解决高斯模型的单峰性的问题,我们引入多个高斯模型的加权平均来拟合多峰数据:
p(x)=∑k=1KαkN(μk,Σk)p(x)=\sum\limits_{k=1}^K\alpha_k\mathcal{N}(\mu_k,\Sigma_k)
p(x)=k=1∑KαkN(μk,Σk)
引入隐变量 zzz,这个变量表示对应的样本 xxx 属于哪一个高斯分布,这个变量是一个离散的随机变量:
p(z=i)=pi,∑i=1kp(z=i)=1p(z=i)=p_i,\sum\limits_{i=1}^kp(z=i)=1
p(z=i)=pi,i=1∑kp(z=i)=1
作为一个生成式模型,高斯混合模型通过隐变量 zzz 的分布来生成样本。用概率图来表示:
graph LR;
z((z))-->x((x))
其中,节点 zzz 就是上面的概率,xxx 就是生成的高斯分布。于是对 p(x)p(x)p(x):
p(x)=∑zp(x,z)=∑k=1Kp(x,z=k)=∑k=1Kp(z=k)p(x∣z=k)p(x)=\sum\limits_zp(x,z)=\su ...
期望最大
期望最大
狭义 EM
期望最大算法的目的是解决具有隐变量的混合模型的参数估计(极大似然估计)。MLE 对 p(x∣θ)p(x|\theta)p(x∣θ) 参数的估计记为:θMLE=argmaxθlogp(x∣θ)\theta_{MLE}=\mathop{argmax}\limits_\theta\log p(x|\theta)θMLE=θargmaxlogp(x∣θ)。EM 算法对这个问题的解决方法是采用迭代的方法:
θt+1=argmaxθ∫zlog[p(x,z∣θ)]p(z∣x,θt)dz=Ez∣x,θt[logp(x,z∣θ)]\theta^{t+1}=\mathop{argmax}\limits_{\theta}\int_z\log [p(x,z|\theta)]p(z|x,\theta^t)dz=\mathbb{E}_{z|x,\theta^t}[\log p(x,z|\theta)]
θt+1=θargmax∫zlog[p(x,z∣θ)]p(z∣x,θt)dz=Ez∣x,θt[logp(x,z∣θ)]
这个公式包含了迭代的两步:
E step:计算 log ...
场
数量场
定义
若对于空间区域 GGG 内任一点 MMM,都有一确定数量 f(M)f(M)f(M) 与之对应,则称这个空间区域 GGG 内确定了一个数量场
方向导数
定义
设 u=f(P)u = f(P)u=f(P) 是定义在 Ω\OmegaΩ 上的一数量场,P0∈ΩP_0 \in \OmegaP0∈Ω,以 P0P_0P0 为始点作一射线,若方向与向量 l⃗\vec{l}l 一致,在此射线上任取一点 P≠P0P \neq P_0P=P0,若极限
limP→P0f(P)−f(P0)∣P0P‾∣\lim\limits_{P\to P_0}\frac{f(P) - f(P_0)}{\left\vert\overline{P_0P} \right\vert}
P→P0limP0Pf(P)−f(P0)
存在,称此极限值为数量场 u=f(P)u = f(P)u=f(P) 在点 P0P_0P0 处沿 l⃗\vec{l}l 方向的方向导数,记为 ∂u∂l⃗∣P0\frac{\partial u}{\partial \vec{l}}\big|_{P_0}∂l∂uP0
计 ...
Transformer 发展简史
前言
高二下学期,一次偶然的机会,我接触到了 AI。当时的我加入到了一位好朋友的行列中,一起学习机器学习。机器学习(Machine Learning)是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 在那段快乐的时光,我接触到了许多机器学习领域的知识。在听完吴恩达的机器学习课程后,我开始接触深度学习。深度学习(Deep Learning)是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。 很快,一起学习 AI 的队伍扩充到了 3 人。依稀记得,在晚自习课间,我们仨在机房讨论反向传播的原理。你或许难以想象,当我们手搓出一个可以实现任意层隐藏层的普通神经网络时,内心是多么的喜悦。高二结束之际,随着 GPT-3.5 的爆火,人工智能逐渐走进大众的视野。在高三的闲暇时间,我接触到了 Transformer,被其巧妙的结构所迷住,而这也是写这篇文章的原因之一。
发展历史
在自然语言处理(NLP)领域中,机器翻译(Machine Translation)任务自提出起就备受关注,许多模型都对其发出了挑战,RNN就是其中一个典型代表 ...
静电场
库仑定律
定义 q1q_1q1 对 q2q_2q2 施加的力
F⃗=14πε0q1q2r2er⃗\vec{F} = \frac{1}{4\pi\varepsilon_0} \frac{q_1 q_2}{r^2} \vec{e_r}
F=4πε01r2q1q2er
其中 er⃗\vec{e_r}er 是由 q1q_1q1 指向 q2q_2q2 的单位向量
电场强度
描述电场中各点电场强弱和方向的物理量
E⃗=F⃗q0\vec{E} = \frac{\vec{F}}{q_0}
E=q0F
具体到静电场中,拿点电荷来举例
E⃗=F⃗q0=14πε0qr2er⃗\vec{E} = \frac{\vec{F}}{q_0} = \frac{1}{4\pi\varepsilon_0}\frac{q}{r^2} \vec{e_r}
E=q0F=4πε01r2qer
根据力的可叠加性,由此可以计算复杂带电体在空间某一点的电场强度
下面列出一些常见带电体的公式
均匀带电圆环轴线上的电场强度
E=xQ4πε0(x2+R2)32=λxR2ε0(x2+R2)32E = ...