朴素贝叶斯

核心假设:在类别y给定的条件下,特征之间是条件独立的

推理过程:

  • 学习:从训练数据中估计P(Y):先验概率,从训练数据中估计$P(X_i|Y)$即每个特征在类别下的条件概率

  • 预测:对于每个可能的类别Y,计算$P(Y|X) \propto P(Y)\prod_i P(X_i|Y)$,选择概率最大的类别作为预测结果

例题:

Gender Label
Male Yes
Female No
Male Yes
Female No
Female Yes

我们要预测:新样本Gender=Female,它的类别是Yes or No

优点:

  • 学习和预测速度快,计算带价低

  • 对高维特征空间较为稳定

  • 即使特征独立性不成立,也常常效果不错

局限:

  • 强独立性假设在实际中往往不成立

  • 对特征之间存在强依赖的数据效果较差

  • 连续特征需要建模为特定分布(如高斯分布)

对于缺失值:朴素贝叶斯天然适用于缺失值时,因为它假设特征条件独立,所以可以跳过缺失的特征,仅用已知的特征计算联合概率

判别准则:

  • 似然比:等价于假设先验概率相等,即MLE

$$
likelihood Ratio = \frac{P(X|Y=1)}{P(X|Y=0)}
$$

关注某一个特征组合在不同列别下的相对可能性

  • 后验赔率:结合了先验概率和观测数据,更接近MAP原则

$$
posterior Odds = \frac{P(Y=1|X)}{P(Y=0|X)} = \frac{P(X|Y=1)P(Y=1)}{P(X|Y=0)P(Y=0)}
$$

零频率问题:当某个类别在训练集中没有出现时,直接计算条件概率会导致零概率,影响分类结果

解决方法:

  • 拉普拉斯平滑:在每个类别的计数上加1,避免零概率

$$
P(X_i|Y) = \frac{count(X_i, Y) + 1}{count(Y) + |X|}
$$

其中$|X|$为特征总数

贝叶斯最优分类器

在给定特征X的情况下,选择后验概率最大的类别Y作为预测结果

$$
Y^* = \arg\max_Y P(Y|X) = \arg\max_Y P(X|Y)P(Y)
$$

其中$P(Y)$是先验概率,$P(X|Y)$是似然函数

贝叶斯最优分类器是理论上最优的分类器,在所有可能的分类器中具有最低的错误率

朴素贝叶斯是贝叶斯最优分类器的一种近似实现,假设特征条件独立