朴素贝叶斯
核心假设:在类别y给定的条件下,特征之间是条件独立的
推理过程:
学习:从训练数据中估计P(Y):先验概率,从训练数据中估计$P(X_i|Y)$即每个特征在类别下的条件概率
预测:对于每个可能的类别Y,计算$P(Y|X) \propto P(Y)\prod_i P(X_i|Y)$,选择概率最大的类别作为预测结果
例题:
Gender | Label |
---|---|
Male | Yes |
Female | No |
Male | Yes |
Female | No |
Female | Yes |
我们要预测:新样本Gender=Female,它的类别是Yes or No
优点:
学习和预测速度快,计算带价低
对高维特征空间较为稳定
即使特征独立性不成立,也常常效果不错
局限:
强独立性假设在实际中往往不成立
对特征之间存在强依赖的数据效果较差
连续特征需要建模为特定分布(如高斯分布)
对于缺失值:朴素贝叶斯天然适用于缺失值时,因为它假设特征条件独立,所以可以跳过缺失的特征,仅用已知的特征计算联合概率
判别准则:
- 似然比:等价于假设先验概率相等,即MLE
$$
likelihood Ratio = \frac{P(X|Y=1)}{P(X|Y=0)}
$$
关注某一个特征组合在不同列别下的相对可能性
- 后验赔率:结合了先验概率和观测数据,更接近MAP原则
$$
posterior Odds = \frac{P(Y=1|X)}{P(Y=0|X)} = \frac{P(X|Y=1)P(Y=1)}{P(X|Y=0)P(Y=0)}
$$
零频率问题:当某个类别在训练集中没有出现时,直接计算条件概率会导致零概率,影响分类结果
解决方法:
- 拉普拉斯平滑:在每个类别的计数上加1,避免零概率
$$
P(X_i|Y) = \frac{count(X_i, Y) + 1}{count(Y) + |X|}
$$
其中$|X|$为特征总数
贝叶斯最优分类器
在给定特征X的情况下,选择后验概率最大的类别Y作为预测结果
$$
Y^* = \arg\max_Y P(Y|X) = \arg\max_Y P(X|Y)P(Y)
$$
其中$P(Y)$是先验概率,$P(X|Y)$是似然函数
贝叶斯最优分类器是理论上最优的分类器,在所有可能的分类器中具有最低的错误率
朴素贝叶斯是贝叶斯最优分类器的一种近似实现,假设特征条件独立