两者都是常见的参数估计方法,主要区别是是否考虑了先验信息。
最大似然估计 MLE
是机器学习中最广泛的训练策略,通过最大化训练数据在模型下出现的概率,来估计模型参数
假设所有假设的先验概率是相等的,所以只看数据的似然
$$
\hat{\theta_{MLE}} = \arg\max_\theta P(X|\theta)
$$
所以可以说MLE是在没有先验知识的情况下“凭数据说话”的估计方法
应用:许多经典模型(逻辑回归,GMM)都使用了MLE,特别的,朴素贝叶斯虽然看起来用了先验,但它是假设条件独立后再用MLE拟合条件概率
OLS(最小二乘法)与MLE的关系
OLS是在高斯噪声的前提下,最大似然估计的一种形式,回归目标变成了“在高斯分布下使观测数据最可能”的参数估计
可以这样理解,如果假设误差服从正态分布,最小二乘法其实就是在做MLE
最大后验估计 MAP
在MLE的基础上,加入了先验知识,通过最大化后验概率来估计模型参数
$$
\hat{\theta_{MAP}} = \arg\max_\theta P(\theta|X) = \arg\max_\theta P(X|\theta)P(\theta)
$$
其中$P(\theta)$是先验分布,$P(X|\theta)$是似然函数,MAP就是要找到使得后验概率最大的参数$\theta$
两种方法的对比
有些模型,如贝叶斯网络、贝叶斯逻辑回归会显式引入先验知识并用MAP进行优化,L1、L2正则化也可以视为MAP的一种表现,他们隐含使用了先验分布约束模型参数
所以MAP本质上可以看作是加入正则化的MLE,在数据稀缺或者不确定性高的情况下,MAP更稳定
注意:
Ridge回归使用了高斯先验,Lasso回归使用了拉普拉斯先验
感知机和SVM等判别式方法不使用概率建模,因此不基于MLE或者MAP