区块链技术博客
www.b2bchain.cn

【模型算法】S0703 从一维高斯分布看极大似然与无偏性求职学习资料

本文介绍了【模型算法】S0703 从一维高斯分布看极大似然与无偏性求职学习资料,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

高斯分布,他的重要性体现在两点:

第一:依据中心极限定理,当样本量足够大的时候,任意分布的均值都趋近于一个高斯分布,这是在整个工程领域体现出该分布的一种普适性;

第二:高斯分布是后续许多模型的根本基础,例如线性高斯模型(卡尔曼滤波)、高斯过程等等。

因此我们首先在这一讲当中,结合一元高斯分布,来讨论一下极大似然估计,估计的有偏性、无偏性等基本建模问题。

1.极大似然估计问题背景

首先我们来回顾一下一元高斯分布的概率密度函数$pdf$,假设我们有一组观测样本数据$X=(x_1,x_2,x_3,…,x_N)$,他们服从参数$theta=(mu,sigma^2)$的一元高斯分布,那么我们如何利用这组样本来对分布的参数$theta$进行估计呢,换句话说也就是估计出样本所服从高斯分布的均值和方差?

这里需要使用我们非常熟悉的极大似然估计方法,我们首先来看一下一元高斯分布的概率密度函数的表达式:

$$p(x)=frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})$$

在之前的《机器学习中的数学:概率统计》专栏中,我们曾经介绍过,极大似然估计的本质就是估计出模型的参数$theta$,使得我们所观测出的这组样本$X=(x_1,x_2,x_3,…,x_N)$出现的概率最大。

这里我们还要熟悉另一个表达式的写法,那就是$p(x|theta)$,我们常常能够看到这个条件概率的写法,他在这里就是指明确了参数$theta$(也就是$mu,sigma^2$)的情况下,服从高斯分布的样本$x$出现的概率,那不难看出,实际上这个表达式最终的写法和上面的概率密度函数形式上是一样的:

$$p(x|theta)=frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})$$

那么对于服从高斯分布的这一组样本$X=(x_1,x_2,x_3,…,x_N)$而言,我们的目标是估计出(换做更直白的语言,就是求出)这个分布的参数$theta$,也就是$mu,sigma^2$,使得在这个高斯分布的框架下,这组样本出现的概率最大,也就是$p(X|theta)$的概率值最大,这样就确定了$p(X|theta)$是我们的求取参数的优化目标了。

2.极大似然估计的求法

由于这一组样本$X=x_1,x_2,x_3,…,x_N$中的每一个样本$x_i$都是独立同分布的,即满足同一个高斯分布,并且彼此之间相互独立,那么依据随机变量独立的性质,优化目标$p(X|theta)$进一步被变化为:

$$p(X|theta)=prod_{i=1}^np(x_i|theta)$$

我们的目标就是找到一组参数$theta$,使得上述概率值取得最大。同时,为了能够简化后续计算,我们对目标函数取对数,一方面因为对数满足单调递增,另一方面对数函数能够使得连乘运算变化为连加运算,可以说是一个不错的选择:

$$log ,p(X|theta)=logprod_{i=1}^np(x_i|theta)=sum_{i=1}^nlog ,p(x_i|theta)$$

我们进一步带入概率密度函数的表达式:

$$sum_{i=1}^nlog,p(x_i|theta)=sum_{i=1}^nlogfrac{1}{sqrt{2pi}sigma}exp(-frac{(x_i-mu)^2}{2sigma^2})\=sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

那么,现在目标明确了,我们来寻找最佳的$mu_{mle}$和$sigma_{mle}$,使得:
$$sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$取得最大。

我们对这两个参数,一个个来看,具体处理方法很简单,就是求使得上面式子偏导数为$0$的$mu$和$sigma$取值。

先看参数$mu$:

$$argmax,mu_{mle}=argmax_{mu}sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

由于前面两项都与$mu$无关,最终:

$$argmax,mu_{mle}=argmax_{mu}sum_{i=1}^n[-frac{(x_i-mu)^2}{2sigma^2}]\=argmin_{mu}sum_{i=1}^n[(x_i-mu)^2]$$

后面的就很好办了,直接求$mu$的偏导即可:

$$frac{partial}{partial mu}sum_{i=1}^{N}(x_i-mu)^2=sum_{i=1}^{N}2(x_i-mu)(-1)=0$$

$$sum_{i=1}^{N}2(x_i-mu)(-1)= sum_{i=1}^{N}(x_i-mu)\=sum_{i=1}^{N}x_i-sum_{i=1}^{N}mu=sum_{i=1}^{N}x_i-Nmu=0$$

最终我们得出:

$$mu_{mle}=frac{1}{N}sum_{i=1}^{N}x_i$$

也就是说,样本的均值就是高斯分布参数$mu$的极大似然估计值。

同样的,我们再看如何利用样本数据对高斯分布的方差进行极大似然估计:

$$argmax,sigma_{mle}=argmax_{sigma}sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]\=argmax_{sigma}sum_{i=1}^n[logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

同样的,我们还是利用求偏导的方法来解决问题:

$$frac{partial}{partial mu}sum_{i=1}^n[logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]=sum_{i=1}^n[-frac{1}{sigma}+frac{1}{2}(x_i-mu)^22sigma^{-3}]\=sum_{i=1}^n[-sigma^2+(x_i-mu)^2]=sum_{i=1}^n-sigma^2+sum_{i=1}^n(x_i-mu)^2=0$$

高斯分布,他的重要性体现在两点:

第一:依据中心极限定理,当样本量足够大的时候,任意分布的均值都趋近于一个高斯分布,这是在整个工程领域体现出该分布的一种普适性;

第二:高斯分布是后续许多模型的根本基础,例如线性高斯模型(卡尔曼滤波)、高斯过程等等。

因此我们首先在这一讲当中,结合一元高斯分布,来讨论一下极大似然估计,估计的有偏性、无偏性等基本建模问题。

1.极大似然估计问题背景

首先我们来回顾一下一元高斯分布的概率密度函数$pdf$,假设我们有一组观测样本数据$X=(x_1,x_2,x_3,…,x_N)$,他们服从参数$theta=(mu,sigma^2)$的一元高斯分布,那么我们如何利用这组样本来对分布的参数$theta$进行估计呢,换句话说也就是估计出样本所服从高斯分布的均值和方差?

这里需要使用我们非常熟悉的极大似然估计方法,我们首先来看一下一元高斯分布的概率密度函数的表达式:

$$p(x)=frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})$$

在之前的《机器学习中的数学:概率统计》专栏中,我们曾经介绍过,极大似然估计的本质就是估计出模型的参数$theta$,使得我们所观测出的这组样本$X=(x_1,x_2,x_3,…,x_N)$出现的概率最大。

这里我们还要熟悉另一个表达式的写法,那就是$p(x|theta)$,我们常常能够看到这个条件概率的写法,他在这里就是指明确了参数$theta$(也就是$mu,sigma^2$)的情况下,服从高斯分布的样本$x$出现的概率,那不难看出,实际上这个表达式最终的写法和上面的概率密度函数形式上是一样的:

$$p(x|theta)=frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})$$

那么对于服从高斯分布的这一组样本$X=(x_1,x_2,x_3,…,x_N)$而言,我们的目标是估计出(换做更直白的语言,就是求出)这个分布的参数$theta$,也就是$mu,sigma^2$,使得在这个高斯分布的框架下,这组样本出现的概率最大,也就是$p(X|theta)$的概率值最大,这样就确定了$p(X|theta)$是我们的求取参数的优化目标了。

2.极大似然估计的求法

由于这一组样本$X=x_1,x_2,x_3,…,x_N$中的每一个样本$x_i$都是独立同分布的,即满足同一个高斯分布,并且彼此之间相互独立,那么依据随机变量独立的性质,优化目标$p(X|theta)$进一步被变化为:

$$p(X|theta)=prod_{i=1}^np(x_i|theta)$$

我们的目标就是找到一组参数$theta$,使得上述概率值取得最大。同时,为了能够简化后续计算,我们对目标函数取对数,一方面因为对数满足单调递增,另一方面对数函数能够使得连乘运算变化为连加运算,可以说是一个不错的选择:

$$log ,p(X|theta)=logprod_{i=1}^np(x_i|theta)=sum_{i=1}^nlog ,p(x_i|theta)$$

我们进一步带入概率密度函数的表达式:

$$sum_{i=1}^nlog,p(x_i|theta)=sum_{i=1}^nlogfrac{1}{sqrt{2pi}sigma}exp(-frac{(x_i-mu)^2}{2sigma^2})\=sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

那么,现在目标明确了,我们来寻找最佳的$mu_{mle}$和$sigma_{mle}$,使得:
$$sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$取得最大。

我们对这两个参数,一个个来看,具体处理方法很简单,就是求使得上面式子偏导数为$0$的$mu$和$sigma$取值。

先看参数$mu$:

$$argmax,mu_{mle}=argmax_{mu}sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

由于前面两项都与$mu$无关,最终:

$$argmax,mu_{mle}=argmax_{mu}sum_{i=1}^n[-frac{(x_i-mu)^2}{2sigma^2}]\=argmin_{mu}sum_{i=1}^n[(x_i-mu)^2]$$

后面的就很好办了,直接求$mu$的偏导即可:

$$frac{partial}{partial mu}sum_{i=1}^{N}(x_i-mu)^2=sum_{i=1}^{N}2(x_i-mu)(-1)=0$$

$$sum_{i=1}^{N}2(x_i-mu)(-1)= sum_{i=1}^{N}(x_i-mu)\=sum_{i=1}^{N}x_i-sum_{i=1}^{N}mu=sum_{i=1}^{N}x_i-Nmu=0$$

最终我们得出:

$$mu_{mle}=frac{1}{N}sum_{i=1}^{N}x_i$$

也就是说,样本的均值就是高斯分布参数$mu$的极大似然估计值。

同样的,我们再看如何利用样本数据对高斯分布的方差进行极大似然估计:

$$argmax,sigma_{mle}=argmax_{sigma}sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]\=argmax_{sigma}sum_{i=1}^n[logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

同样的,我们还是利用求偏导的方法来解决问题:

$$frac{partial}{partial mu}sum_{i=1}^n[logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]=sum_{i=1}^n[-frac{1}{sigma}+frac{1}{2}(x_i-mu)^22sigma^{-3}]\=sum_{i=1}^n[-sigma^2+(x_i-mu)^2]=sum_{i=1}^n-sigma^2+sum_{i=1}^n(x_i-mu)^2=0$$

高斯分布,他的重要性体现在两点:

第一:依据中心极限定理,当样本量足够大的时候,任意分布的均值都趋近于一个高斯分布,这是在整个工程领域体现出该分布的一种普适性;

第二:高斯分布是后续许多模型的根本基础,例如线性高斯模型(卡尔曼滤波)、高斯过程等等。

因此我们首先在这一讲当中,结合一元高斯分布,来讨论一下极大似然估计,估计的有偏性、无偏性等基本建模问题。

1.极大似然估计问题背景

首先我们来回顾一下一元高斯分布的概率密度函数$pdf$,假设我们有一组观测样本数据$X=(x_1,x_2,x_3,…,x_N)$,他们服从参数$theta=(mu,sigma^2)$的一元高斯分布,那么我们如何利用这组样本来对分布的参数$theta$进行估计呢,换句话说也就是估计出样本所服从高斯分布的均值和方差?

这里需要使用我们非常熟悉的极大似然估计方法,我们首先来看一下一元高斯分布的概率密度函数的表达式:

$$p(x)=frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})$$

在之前的《机器学习中的数学:概率统计》专栏中,我们曾经介绍过,极大似然估计的本质就是估计出模型的参数$theta$,使得我们所观测出的这组样本$X=(x_1,x_2,x_3,…,x_N)$出现的概率最大。

这里我们还要熟悉另一个表达式的写法,那就是$p(x|theta)$,我们常常能够看到这个条件概率的写法,他在这里就是指明确了参数$theta$(也就是$mu,sigma^2$)的情况下,服从高斯分布的样本$x$出现的概率,那不难看出,实际上这个表达式最终的写法和上面的概率密度函数形式上是一样的:

$$p(x|theta)=frac{1}{sqrt{2pi}sigma}exp(-frac{(x-mu)^2}{2sigma^2})$$

那么对于服从高斯分布的这一组样本$X=(x_1,x_2,x_3,…,x_N)$而言,我们的目标是估计出(换做更直白的语言,就是求出)这个分布的参数$theta$,也就是$mu,sigma^2$,使得在这个高斯分布的框架下,这组样本出现的概率最大,也就是$p(X|theta)$的概率值最大,这样就确定了$p(X|theta)$是我们的求取参数的优化目标了。

2.极大似然估计的求法

由于这一组样本$X=x_1,x_2,x_3,…,x_N$中的每一个样本$x_i$都是独立同分布的,即满足同一个高斯分布,并且彼此之间相互独立,那么依据随机变量独立的性质,优化目标$p(X|theta)$进一步被变化为:

$$p(X|theta)=prod_{i=1}^np(x_i|theta)$$

我们的目标就是找到一组参数$theta$,使得上述概率值取得最大。同时,为了能够简化后续计算,我们对目标函数取对数,一方面因为对数满足单调递增,另一方面对数函数能够使得连乘运算变化为连加运算,可以说是一个不错的选择:

$$log ,p(X|theta)=logprod_{i=1}^np(x_i|theta)=sum_{i=1}^nlog ,p(x_i|theta)$$

我们进一步带入概率密度函数的表达式:

$$sum_{i=1}^nlog,p(x_i|theta)=sum_{i=1}^nlogfrac{1}{sqrt{2pi}sigma}exp(-frac{(x_i-mu)^2}{2sigma^2})\=sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

那么,现在目标明确了,我们来寻找最佳的$mu_{mle}$和$sigma_{mle}$,使得:
$$sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$取得最大。

我们对这两个参数,一个个来看,具体处理方法很简单,就是求使得上面式子偏导数为$0$的$mu$和$sigma$取值。

先看参数$mu$:

$$argmax,mu_{mle}=argmax_{mu}sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

由于前面两项都与$mu$无关,最终:

$$argmax,mu_{mle}=argmax_{mu}sum_{i=1}^n[-frac{(x_i-mu)^2}{2sigma^2}]\=argmin_{mu}sum_{i=1}^n[(x_i-mu)^2]$$

后面的就很好办了,直接求$mu$的偏导即可:

$$frac{partial}{partial mu}sum_{i=1}^{N}(x_i-mu)^2=sum_{i=1}^{N}2(x_i-mu)(-1)=0$$

$$sum_{i=1}^{N}2(x_i-mu)(-1)= sum_{i=1}^{N}(x_i-mu)\=sum_{i=1}^{N}x_i-sum_{i=1}^{N}mu=sum_{i=1}^{N}x_i-Nmu=0$$

最终我们得出:

$$mu_{mle}=frac{1}{N}sum_{i=1}^{N}x_i$$

也就是说,样本的均值就是高斯分布参数$mu$的极大似然估计值。

同样的,我们再看如何利用样本数据对高斯分布的方差进行极大似然估计:

$$argmax,sigma_{mle}=argmax_{sigma}sum_{i=1}^n[logfrac{1}{sqrt{2pi}}+logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]\=argmax_{sigma}sum_{i=1}^n[logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]$$

同样的,我们还是利用求偏导的方法来解决问题:

$$frac{partial}{partial mu}sum_{i=1}^n[logfrac{1}{sigma}-frac{(x_i-mu)^2}{2sigma^2}]=sum_{i=1}^n[-frac{1}{sigma}+frac{1}{2}(x_i-mu)^22sigma^{-3}]\=sum_{i=1}^n[-sigma^2+(x_i-mu)^2]=sum_{i=1}^n-sigma^2+sum_{i=1}^n(x_i-mu)^2=0$$

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 【模型算法】S0703 从一维高斯分布看极大似然与无偏性求职学习资料
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们