参数估计问题是统计学中非常经典的问题,对于此类问题,我们将主要讨论两种最常用和很有效的方法,也就是:最大似然估计和贝叶斯估计。
最大似然估计(MLE)与最大后验概率估计(MAP)非常相似,具体内容可查看:【模式识别、朴素贝叶斯方法】最大似然估计(MLE)、最大后验概率估计(MAP)
虽然说最大似然估计和贝叶斯估计方法得到的结果通常是很接近的,但这两个方法的本质却有很大差别。最大似然估计(和最大后验概率估计)把待估计的参数看作是确定性的量,只是其取值未知,最佳估计就是使得产生已观测到的样本(即训练样本)的概率为最大的那个值。与此不同的是,贝叶斯估计则把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中,一个典型的效果就是,每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰。这个现象就称为“贝叶斯学习”过程。无论使用何种参数估计方法,在参数估计完成后,我们都使用后验概率作为分类准则。
贝叶斯学习的核心问题为:已知一组训练样本D,这些样本都是从固定但未知的概率密度函数p(x)中独立抽取的,要求根据这些样本估计后验概率p(x|D)。
如引言部分所讲,在贝叶斯估计算法中,唯一未知的是参数θ的值,参数的θ的先验分布 P ( θ ) P(\theta) P(θ)我们假设是已知的,因为 p ( X ) p(\pmb X) p(XXX)的形式我们是已知的只有参数未知所以 p ( X ∣ θ ) p(\pmb X|\theta) p(XXX∣θ)也是完全确定的。同时我们还知道观测到的样本集D,D使得我们能够把先验概率转化为参数的后验分布 p ( θ ∣ D ) p(\theta|D) p(θ∣D),我们希望后验概率密度函数在待估参数θ的真实值附近形成最大的尖峰。 p ( θ ∣ D ) p(\theta|D) p(θ∣D)计算如下: p ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) = α ∏ k = 1 n P ( x k ∣ θ ) P ( θ ) p(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}=\alpha \prod_{k=1}^nP(x_k|\theta)P(\theta) p(θ∣D)=P(D)P(D∣θ)P(θ)=αk=1∏nP(xk∣θ)P(θ) P(D)求解非常简单,将它分离出来,这里的α便是一个依赖于D的系数,在此时,求出 θ = arg max θ ∏ k = 1 n P ( x k ∣ θ ) P ( θ ) \theta=\arg \max_{\theta} \prod_{k=1}^nP(x_k|\theta)P(\theta) θ=argmaxθ∏k=1nP(xk∣θ)P(θ)即是最大后验概率估计(MAP),当参数θ是均匀分布时就是最大似然估计。
贝叶斯估计关注的是p(x|D),在某一个模型下(该模型由θ唯一确定),生成大量的数据集即训练样本D,新数据观测样本x也是在这个模型下生成的,我们需要确定的是,给定D的情况下,x属于某一类别的概率是多少,且X和D的选取都是独立生成的,上述内容通过概率图模型展示如下:
所以p(x|D)公式如下: p ( x ∣ D ) = ∫ p ( x , θ ∣ D ) d θ = ∫ p ( x ∣ θ ) p ( θ ∣ D ) d θ p(\pmb x|D)=\int p(x,\theta|D)d \theta=\int p(x|\theta)p(\theta|D)d\theta p(xxx∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ)p(θ∣D)dθ 上式子即为贝叶斯估计中最为核心的公式。
如果需要确定θ的值,只要求出后验分布的期望即可: θ ^ = E [ θ ∣ D ] = ∫ θ p ( θ ∣ D ) d θ \hat \theta=E[\theta|D]=\int\theta p(\theta|D)d\theta θ^=E[θ∣D]=∫θp(θ∣D)dθ