区块链技术博客
www.b2bchain.cn

【算法模型】S07E06 高斯判别分析:立足于高斯分布的前提求职学习资料

本文介绍了【算法模型】S07E06 高斯判别分析:立足于高斯分布的前提求职学习资料,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

在上一讲里我们说了,概率判别模型是直接对$p(Y|X)$进行建模,例如在逻辑回归当中,我们就是直接去求得$p(y=1|x)$和$p(y=0|x)$的概率值,并通过概率值直接来判断是分类是取0还是1。

1.概率生成模型的关注问题

这一讲里所要介绍的是概率生成模型:他关心的是$p(y=0|x)$和$p(y=1|x)$两个概率谁更大,注意!是只比较二者的大小,而不是无谓的去求取$p(y|x)$的具体取值。这里就要借助贝叶斯公式:

$$p(y|x)=frac{p(x|y)p(y)}{p(x)}$$

而分母$p(x)$是样本的概率,是常数值,他与我们最终的取值无关,因此就有$p(y|x)propto p(x|y)p(y)$,即正比于联合概率。

此时我们就看到了生成模型的样子:

$$y=argmax_{y in {0,1}}~p(y|x)=argmax~p(y)p(x|y)$$

2.高斯判别模型原理及要素

那么现在我们分别来看$p(y)$和$p(x|y)$

$y$的取值是1或0,这是一个二分类的问题,因此随机变量$y$服从伯努利分布:

【算法模型】S07E06  高斯判别分析:立足于高斯分布的前提

也就是说,$p(y=1)=phi^y$,$p(y=0)=(1-phi)^{1-y}$。数学上,我们把他集成起来,就是$p(y)=phi^y(1-phi)^{1-y}$

我们再来看$p(x|y)$。模型的名字为高斯判别分析,之所以含有高斯二字,其要义就体现在了$p(x|y)$之上,高斯判别模型中有一个非常强的假设,那就是:当确定了样本类别时,样本存在的概率服从高斯分布,写成表达式就是:

$$p(x|y=1) =N(mu_1,Sigma)$$$$p(x|y=0)=N(mu_0,Sigma)$$

从这里我们可以进一步详细的描述模型的假设,那就是:基于不同分类的条件概率满足高斯分布,他们拥有不同的均值(或均值向量),但是他们的方差(或协方差矩阵)是相同的。

我们将这两个式子结合起来就是:

$$p(x|y)=N(mu_1,Sigma)^yN(u_2,Sigma)^{1-y}$$

3.高斯判别模型的参数估计

那么,明确了联合概率的前后两部分$p(y)$和$p(x|y)$之后,我们即针对$p(x|y)p(y)$建立似然函数,然后利用极大似然估计的方法去估计高斯判别模型的各个参数。因此,我们拿出对数似然函数:

$$L(theta)=logprod_{i=1}^N(p(x_i|y_i)p(y_i))\=sum_{i=1}^Nlog(p(x_i|y_i)p(y_i))\=sum_{i=1}^N(log~p(x_i|y_i)+log~p(y_i))\=sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})\=sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}+log~N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})$$

上述,我们就获得了似然函数的最终形式,下面利用极大似然估计的方法,针对这个似然函数去估计模型的参数$theta$,模型共有四个具体的参数:$theta=(phi,mu_1,mu_2,Sigma)$,其中$y=1$的样本数个数为$N_1$,$y=0$的样本数个数为$N_0$,$N_1+N_2=N$

我们先来估计参数$phi$:

参数$phi$只跟对数似然函数的第三项有关,因此:

$$phi_{mle}=argmax_{phi}sum_{i=1}^Nlogphi^{y_i}(1-phi)^{1-y_i}\=argmax_{phi}sum_{i=1}^N(y_ilogphi+(1-y_i)log(1-phi))$$

$$frac{partial}{partial phi}sum_{i=1}^N(y_ilogphi+(1-y_i)log(1-phi))\=sum_{i=1}^N(y_ifrac{1}{phi}-(1-y_i)frac{1}{1-phi})=0$$

经过一些简单的运算:

$$sum_{i=1}^N[y_i(1-phi)-(1-y_i)phi]=0\sum_{i=1}^N(y_i-phi)=sum_{i=1}^Ny_i-sum_{i=1}^Nphi=sum_{i=1}^Ny_i-Nphi=0$$

最终我们成功的估计出了第一个参数$phi$:
$$phi_{mle}=frac{1}{N}sum_{i=1}^Ny_i=frac{N_1}{N}$$

接着我们再来看第二个参数:$mu_1$,显然他只和似然函数的第一项有关:

$$sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}+log~N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})$$

$$mu_1=argmax_{mu_1}sum_{i=1}^Nlog~N(mu_1,Sigma)^{y_i}\=argmax_{mu_1}sum_{i=1}^Ny_ilogfrac{1}{(2pi)^{frac{p}{2}}|Sigma|^{1/2}}exp{-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1)}\=argmax_{mu_1}sum_{i=1}^Ny_ilog~exp{-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1)}\=argmax_{mu_1}sum_{i=1}^Ny_i(-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1))$$

最终就落脚到:

$$frac{partial}{partial mu_1}sum_{i=1}^Ny_i(-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1))\=frac{partial}{partial mu_1}-frac{1}{2}sum_{i=1}^Ny_i(x_i^TSigma^{-1}x_i-x_i^{T}Sigma^{-1}mu_1-mu_1^TSigma^{-1}x_i+mu_1^TSigma^{-1}mu_1)$$

这里又是那个小技巧,我们发现,$x_i^{T}Sigma^{-1}mu_1$和$mu_1^TSigma^{-1}x_i$两项互为转置的关系,并且他们最终都表示一个实数,因此二者显然是相等的。$x_i^TSigma^{-1}x_i$是一个常数项,因此也可以忽略不计的,因此进一步变为:

$$frac{partial}{partial mu_1}-frac{1}{2}sum_{i=1}^Ny_i(-2mu_1^TSigma^{-1}x_i+mu_1^TSigma^{-1}mu_1)\=-frac{1}{2}sum_{i=1}^Ny_i(-2Sigma^{-1}x_i+2Sigma^{-1}mu_1)=0\sum_{i=1}^Ny_i(mu_1-x_i)=0Rightarrow sum_{i=1}^Ny_imu_1=sum_{i=1}^Ny_ix_i$$

最终,我们得到了$mu_1$的极大似然估计值:

$$mu_1=frac{sum_{i=1}^{N}y_ix_i}{sum_{i=1}^Ny_i}=frac{sum_{i=1}^{N}y_ix_i}{N_1}$$

至于说另一个均值参数$mu_2$,求解思路和具体技巧都是一模一样的,这里我们就不重复推导了。

在上一讲里我们说了,概率判别模型是直接对$p(Y|X)$进行建模,例如在逻辑回归当中,我们就是直接去求得$p(y=1|x)$和$p(y=0|x)$的概率值,并通过概率值直接来判断是分类是取0还是1。

1.概率生成模型的关注问题

这一讲里所要介绍的是概率生成模型:他关心的是$p(y=0|x)$和$p(y=1|x)$两个概率谁更大,注意!是只比较二者的大小,而不是无谓的去求取$p(y|x)$的具体取值。这里就要借助贝叶斯公式:

$$p(y|x)=frac{p(x|y)p(y)}{p(x)}$$

而分母$p(x)$是样本的概率,是常数值,他与我们最终的取值无关,因此就有$p(y|x)propto p(x|y)p(y)$,即正比于联合概率。

此时我们就看到了生成模型的样子:

$$y=argmax_{y in {0,1}}~p(y|x)=argmax~p(y)p(x|y)$$

2.高斯判别模型原理及要素

那么现在我们分别来看$p(y)$和$p(x|y)$

$y$的取值是1或0,这是一个二分类的问题,因此随机变量$y$服从伯努利分布:

【算法模型】S07E06  高斯判别分析:立足于高斯分布的前提

也就是说,$p(y=1)=phi^y$,$p(y=0)=(1-phi)^{1-y}$。数学上,我们把他集成起来,就是$p(y)=phi^y(1-phi)^{1-y}$

我们再来看$p(x|y)$。模型的名字为高斯判别分析,之所以含有高斯二字,其要义就体现在了$p(x|y)$之上,高斯判别模型中有一个非常强的假设,那就是:当确定了样本类别时,样本存在的概率服从高斯分布,写成表达式就是:

$$p(x|y=1) =N(mu_1,Sigma)$$$$p(x|y=0)=N(mu_0,Sigma)$$

从这里我们可以进一步详细的描述模型的假设,那就是:基于不同分类的条件概率满足高斯分布,他们拥有不同的均值(或均值向量),但是他们的方差(或协方差矩阵)是相同的。

我们将这两个式子结合起来就是:

$$p(x|y)=N(mu_1,Sigma)^yN(u_2,Sigma)^{1-y}$$

3.高斯判别模型的参数估计

那么,明确了联合概率的前后两部分$p(y)$和$p(x|y)$之后,我们即针对$p(x|y)p(y)$建立似然函数,然后利用极大似然估计的方法去估计高斯判别模型的各个参数。因此,我们拿出对数似然函数:

$$L(theta)=logprod_{i=1}^N(p(x_i|y_i)p(y_i))\=sum_{i=1}^Nlog(p(x_i|y_i)p(y_i))\=sum_{i=1}^N(log~p(x_i|y_i)+log~p(y_i))\=sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})\=sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}+log~N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})$$

上述,我们就获得了似然函数的最终形式,下面利用极大似然估计的方法,针对这个似然函数去估计模型的参数$theta$,模型共有四个具体的参数:$theta=(phi,mu_1,mu_2,Sigma)$,其中$y=1$的样本数个数为$N_1$,$y=0$的样本数个数为$N_0$,$N_1+N_2=N$

我们先来估计参数$phi$:

参数$phi$只跟对数似然函数的第三项有关,因此:

$$phi_{mle}=argmax_{phi}sum_{i=1}^Nlogphi^{y_i}(1-phi)^{1-y_i}\=argmax_{phi}sum_{i=1}^N(y_ilogphi+(1-y_i)log(1-phi))$$

$$frac{partial}{partial phi}sum_{i=1}^N(y_ilogphi+(1-y_i)log(1-phi))\=sum_{i=1}^N(y_ifrac{1}{phi}-(1-y_i)frac{1}{1-phi})=0$$

经过一些简单的运算:

$$sum_{i=1}^N[y_i(1-phi)-(1-y_i)phi]=0\sum_{i=1}^N(y_i-phi)=sum_{i=1}^Ny_i-sum_{i=1}^Nphi=sum_{i=1}^Ny_i-Nphi=0$$

最终我们成功的估计出了第一个参数$phi$:
$$phi_{mle}=frac{1}{N}sum_{i=1}^Ny_i=frac{N_1}{N}$$

接着我们再来看第二个参数:$mu_1$,显然他只和似然函数的第一项有关:

$$sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}+log~N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})$$

$$mu_1=argmax_{mu_1}sum_{i=1}^Nlog~N(mu_1,Sigma)^{y_i}\=argmax_{mu_1}sum_{i=1}^Ny_ilogfrac{1}{(2pi)^{frac{p}{2}}|Sigma|^{1/2}}exp{-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1)}\=argmax_{mu_1}sum_{i=1}^Ny_ilog~exp{-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1)}\=argmax_{mu_1}sum_{i=1}^Ny_i(-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1))$$

最终就落脚到:

$$frac{partial}{partial mu_1}sum_{i=1}^Ny_i(-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1))\=frac{partial}{partial mu_1}-frac{1}{2}sum_{i=1}^Ny_i(x_i^TSigma^{-1}x_i-x_i^{T}Sigma^{-1}mu_1-mu_1^TSigma^{-1}x_i+mu_1^TSigma^{-1}mu_1)$$

这里又是那个小技巧,我们发现,$x_i^{T}Sigma^{-1}mu_1$和$mu_1^TSigma^{-1}x_i$两项互为转置的关系,并且他们最终都表示一个实数,因此二者显然是相等的。$x_i^TSigma^{-1}x_i$是一个常数项,因此也可以忽略不计的,因此进一步变为:

$$frac{partial}{partial mu_1}-frac{1}{2}sum_{i=1}^Ny_i(-2mu_1^TSigma^{-1}x_i+mu_1^TSigma^{-1}mu_1)\=-frac{1}{2}sum_{i=1}^Ny_i(-2Sigma^{-1}x_i+2Sigma^{-1}mu_1)=0\sum_{i=1}^Ny_i(mu_1-x_i)=0Rightarrow sum_{i=1}^Ny_imu_1=sum_{i=1}^Ny_ix_i$$

最终,我们得到了$mu_1$的极大似然估计值:

$$mu_1=frac{sum_{i=1}^{N}y_ix_i}{sum_{i=1}^Ny_i}=frac{sum_{i=1}^{N}y_ix_i}{N_1}$$

至于说另一个均值参数$mu_2$,求解思路和具体技巧都是一模一样的,这里我们就不重复推导了。

在上一讲里我们说了,概率判别模型是直接对$p(Y|X)$进行建模,例如在逻辑回归当中,我们就是直接去求得$p(y=1|x)$和$p(y=0|x)$的概率值,并通过概率值直接来判断是分类是取0还是1。

1.概率生成模型的关注问题

这一讲里所要介绍的是概率生成模型:他关心的是$p(y=0|x)$和$p(y=1|x)$两个概率谁更大,注意!是只比较二者的大小,而不是无谓的去求取$p(y|x)$的具体取值。这里就要借助贝叶斯公式:

$$p(y|x)=frac{p(x|y)p(y)}{p(x)}$$

而分母$p(x)$是样本的概率,是常数值,他与我们最终的取值无关,因此就有$p(y|x)propto p(x|y)p(y)$,即正比于联合概率。

此时我们就看到了生成模型的样子:

$$y=argmax_{y in {0,1}}~p(y|x)=argmax~p(y)p(x|y)$$

2.高斯判别模型原理及要素

那么现在我们分别来看$p(y)$和$p(x|y)$

$y$的取值是1或0,这是一个二分类的问题,因此随机变量$y$服从伯努利分布:

【算法模型】S07E06  高斯判别分析:立足于高斯分布的前提

也就是说,$p(y=1)=phi^y$,$p(y=0)=(1-phi)^{1-y}$。数学上,我们把他集成起来,就是$p(y)=phi^y(1-phi)^{1-y}$

我们再来看$p(x|y)$。模型的名字为高斯判别分析,之所以含有高斯二字,其要义就体现在了$p(x|y)$之上,高斯判别模型中有一个非常强的假设,那就是:当确定了样本类别时,样本存在的概率服从高斯分布,写成表达式就是:

$$p(x|y=1) =N(mu_1,Sigma)$$$$p(x|y=0)=N(mu_0,Sigma)$$

从这里我们可以进一步详细的描述模型的假设,那就是:基于不同分类的条件概率满足高斯分布,他们拥有不同的均值(或均值向量),但是他们的方差(或协方差矩阵)是相同的。

我们将这两个式子结合起来就是:

$$p(x|y)=N(mu_1,Sigma)^yN(u_2,Sigma)^{1-y}$$

3.高斯判别模型的参数估计

那么,明确了联合概率的前后两部分$p(y)$和$p(x|y)$之后,我们即针对$p(x|y)p(y)$建立似然函数,然后利用极大似然估计的方法去估计高斯判别模型的各个参数。因此,我们拿出对数似然函数:

$$L(theta)=logprod_{i=1}^N(p(x_i|y_i)p(y_i))\=sum_{i=1}^Nlog(p(x_i|y_i)p(y_i))\=sum_{i=1}^N(log~p(x_i|y_i)+log~p(y_i))\=sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})\=sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}+log~N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})$$

上述,我们就获得了似然函数的最终形式,下面利用极大似然估计的方法,针对这个似然函数去估计模型的参数$theta$,模型共有四个具体的参数:$theta=(phi,mu_1,mu_2,Sigma)$,其中$y=1$的样本数个数为$N_1$,$y=0$的样本数个数为$N_0$,$N_1+N_2=N$

我们先来估计参数$phi$:

参数$phi$只跟对数似然函数的第三项有关,因此:

$$phi_{mle}=argmax_{phi}sum_{i=1}^Nlogphi^{y_i}(1-phi)^{1-y_i}\=argmax_{phi}sum_{i=1}^N(y_ilogphi+(1-y_i)log(1-phi))$$

$$frac{partial}{partial phi}sum_{i=1}^N(y_ilogphi+(1-y_i)log(1-phi))\=sum_{i=1}^N(y_ifrac{1}{phi}-(1-y_i)frac{1}{1-phi})=0$$

经过一些简单的运算:

$$sum_{i=1}^N[y_i(1-phi)-(1-y_i)phi]=0\sum_{i=1}^N(y_i-phi)=sum_{i=1}^Ny_i-sum_{i=1}^Nphi=sum_{i=1}^Ny_i-Nphi=0$$

最终我们成功的估计出了第一个参数$phi$:
$$phi_{mle}=frac{1}{N}sum_{i=1}^Ny_i=frac{N_1}{N}$$

接着我们再来看第二个参数:$mu_1$,显然他只和似然函数的第一项有关:

$$sum_{i=1}^N(log~N(mu_1,Sigma)^{y_i}+log~N(mu_2,Sigma)^{1-y_i}+logphi^{y_i}(1-phi)^{1-y_i})$$

$$mu_1=argmax_{mu_1}sum_{i=1}^Nlog~N(mu_1,Sigma)^{y_i}\=argmax_{mu_1}sum_{i=1}^Ny_ilogfrac{1}{(2pi)^{frac{p}{2}}|Sigma|^{1/2}}exp{-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1)}\=argmax_{mu_1}sum_{i=1}^Ny_ilog~exp{-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1)}\=argmax_{mu_1}sum_{i=1}^Ny_i(-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1))$$

最终就落脚到:

$$frac{partial}{partial mu_1}sum_{i=1}^Ny_i(-frac{1}{2}(x_i-mu_1)^TSigma^{-1}(x_i-mu_1))\=frac{partial}{partial mu_1}-frac{1}{2}sum_{i=1}^Ny_i(x_i^TSigma^{-1}x_i-x_i^{T}Sigma^{-1}mu_1-mu_1^TSigma^{-1}x_i+mu_1^TSigma^{-1}mu_1)$$

这里又是那个小技巧,我们发现,$x_i^{T}Sigma^{-1}mu_1$和$mu_1^TSigma^{-1}x_i$两项互为转置的关系,并且他们最终都表示一个实数,因此二者显然是相等的。$x_i^TSigma^{-1}x_i$是一个常数项,因此也可以忽略不计的,因此进一步变为:

$$frac{partial}{partial mu_1}-frac{1}{2}sum_{i=1}^Ny_i(-2mu_1^TSigma^{-1}x_i+mu_1^TSigma^{-1}mu_1)\=-frac{1}{2}sum_{i=1}^Ny_i(-2Sigma^{-1}x_i+2Sigma^{-1}mu_1)=0\sum_{i=1}^Ny_i(mu_1-x_i)=0Rightarrow sum_{i=1}^Ny_imu_1=sum_{i=1}^Ny_ix_i$$

最终,我们得到了$mu_1$的极大似然估计值:

$$mu_1=frac{sum_{i=1}^{N}y_ix_i}{sum_{i=1}^Ny_i}=frac{sum_{i=1}^{N}y_ix_i}{N_1}$$

至于说另一个均值参数$mu_2$,求解思路和具体技巧都是一模一样的,这里我们就不重复推导了。

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 【算法模型】S07E06 高斯判别分析:立足于高斯分布的前提求职学习资料
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们