最大似然估计和最大后验估计是两种通过概率方法确定或优化机器学习模型参数的方法。

最大似然估计

通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值 。为了介绍最大似然估计，我们先介绍似然的概念。

似然是和概率相似但不完全相同的概念。对于机器学习中的一组参数 $θ$ ，它的似然是在这组参数下，观察到某组数据的可能性：

$L (θ | x) = P_{m o d e l} (x | θ)$

其中 $L (θ | x)$ 是 似然函数 。似然函数越大，在这组参数下出现 $x$ 的概率就越大，说明这组参数也越合理。

最大似然估计就是通过使似然最大求得一组参数的过程。我们可以求 $L (θ | x) 对 θ$ 的微分并使之为 $0$ ，从而求出这组参数：

$\begin{aligned} θ & = \arg max (L (θ | x)) \\ = \arg max (P_{m o d e l} (x | θ)) \\ = \arg max (\prod_{i = 1}^{n} P_{m o d e l} (x_{i} | θ)) \\ = \arg max (\sum_{i = 1}^{n} \log P_{m o d e l} (x_{i} | θ)) \\ = - \arg min (\sum_{i = 1}^{n} \log P_{m o d e l} (x_{i} | θ)) \end{aligned}$

最大后验估计

传统统计学派认为概率是一个定值，而贝叶斯学派认为概率是对随机变量的描述，因此随着得到的信息越多，我们对其的描述也应该更精确，这意味着在得到信息后概率也会随之改变。在得到信息之前的概率称为 先验概率 ，在得到信息之后的概率称为 后验概率 。贝叶斯学派认为，参数也是一个随机变量，因此也可以使用概率分布去描述它。

假设某机器学习模型有参数 $θ$ 和样本 $x$ ，根据贝叶斯公式，参数的后验概率为：

$\begin{array}{r} p_{m o d e l} (θ | x) = \frac{p_{m o d e l} (x | θ) p (θ)}{p (x)} \end{array}$

其中 $p (x)$ 是一个已知常量，我们通过让这个后验概率最大来求得 $θ$ ：

$\begin{aligned} θ & = \arg max (p_{m o d e l} (θ | x)) \\ = \arg max (p_{m o d e l} (x | θ) p (θ)) \\ = \arg max (\prod_{i = 1}^{n} p_{m o d e l} (x_{i} | θ) p (θ)) \\ = \arg max (\sum_{i = 1}^{n} \log p_{m o d e l} (x_{i} | θ) p (θ)) \\ = - \arg min (\sum_{i = 1}^{n} \log p_{m o d e l} (x_{i} | θ) p (θ)) \end{aligned}$

最大似然估计与最大后验估计

AI 摘要

最大似然估计

最大后验估计

生成函数

熵、KL散度、交叉熵与互信息

Comments NOTHING

取消回复