最大似然估计与最大后验估计

Junity 发布于 19 天前 461 次阅读 最后更新于 19 天前 556 字 预计阅读时间: 3 分钟


AI 摘要

本文介绍最大似然估计(MLE)和最大后验估计(MAP)两种参数估计方法。MLE通过最大化数据似然函数求最优参数,基于频率学派思想;MAP则在MLE基础上引入参数先验分布,属于贝叶斯学派方法。通过对比两者数学表达式,揭示了二者在概率框架下的区别与联系。

最大似然估计和最大后验估计是两种通过概率方法确定或优化机器学习模型参数的方法。

最大似然估计

通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值 。为了介绍最大似然估计,我们先介绍 似然 的概念。

似然是和概率相似但不完全相同的概念。对于机器学习中的一组参数 θ ,它的似然是在这组参数下,观察到某组数据的可能性:

L(θ|x)=Pmodel(x|θ)

其中 L(θ|x)似然函数 。似然函数越大,在这组参数下出现 x 的概率就越大,说明这组参数也越合理。

最大似然估计就是通过使似然最大求得一组参数的过程。我们可以求 L(θ|x)θ 的微分并使之为 0 ,从而求出这组参数:

θ=argmax(L(θ|x))=argmax(Pmodel(x|θ))=argmax(i=1nPmodel(xi|θ))=argmax(i=1nlogPmodel(xi|θ))=argmin(i=1nlogPmodel(xi|θ))

最大后验估计

传统统计学派认为概率是一个定值,而贝叶斯学派认为概率是对随机变量的描述,因此随着得到的信息越多,我们对其的描述也应该更精确,这意味着在得到信息后概率也会随之改变。在得到信息之前的概率称为 先验概率 ,在得到信息之后的概率称为 后验概率 。贝叶斯学派认为,参数也是一个随机变量,因此也可以使用概率分布去描述它。

假设某机器学习模型有参数 θ 和样本 x ,根据贝叶斯公式,参数的后验概率为:

pmodel(θ|x)=pmodel(x|θ)p(θ)p(x)

其中 p(x) 是一个已知常量,我们通过让这个后验概率最大来求得 θ

θ=argmax(pmodel(θ|x))=argmax(pmodel(x|θ)p(θ))=argmax(i=1npmodel(xi|θ)p(θ))=argmax(i=1nlogpmodel(xi|θ)p(θ))=argmin(i=1nlogpmodel(xi|θ)p(θ))

此作者没有提供个人介绍。
最后更新于 2025-04-25