两者都是常见的参数估计方法,主要区别是是否考虑了先验信息。

最大似然估计 MLE

是机器学习中最广泛的训练策略,通过最大化训练数据在模型下出现的概率,来估计模型参数

假设所有假设的先验概率是相等的,所以只看数据的似然

$$
\hat{\theta_{MLE}} = \arg\max_\theta P(X|\theta)
$$

所以可以说MLE是在没有先验知识的情况下“凭数据说话”的估计方法

应用:许多经典模型(逻辑回归,GMM)都使用了MLE,特别的,朴素贝叶斯虽然看起来用了先验,但它是假设条件独立后再用MLE拟合条件概率

OLS(最小二乘法)与MLE的关系

OLS是在高斯噪声的前提下,最大似然估计的一种形式,回归目标变成了“在高斯分布下使观测数据最可能”的参数估计

可以这样理解,如果假设误差服从正态分布,最小二乘法其实就是在做MLE

最大后验估计 MAP

在MLE的基础上,加入了先验知识,通过最大化后验概率来估计模型参数

$$
\hat{\theta_{MAP}} = \arg\max_\theta P(\theta|X) = \arg\max_\theta P(X|\theta)P(\theta)
$$

其中$P(\theta)$是先验分布,$P(X|\theta)$是似然函数,MAP就是要找到使得后验概率最大的参数$\theta$

两种方法的对比

有些模型,如贝叶斯网络、贝叶斯逻辑回归会显式引入先验知识并用MAP进行优化,L1、L2正则化也可以视为MAP的一种表现,他们隐含使用了先验分布约束模型参数

所以MAP本质上可以看作是加入正则化的MLE,在数据稀缺或者不确定性高的情况下,MAP更稳定

注意:

  • Ridge回归使用了高斯先验,Lasso回归使用了拉普拉斯先验

  • 感知机和SVM等判别式方法不使用概率建模,因此不基于MLE或者MAP