ID3

使用信息增益,偏向于特征值多的属性

无剪枝,容易过拟合

仅用于分类问题,构建多叉树

只能处理离散型特征,对缺失值敏感

每个特征只能在一条路径中使用一次

C4.5

使用信息增益率,克服信息增益偏差,偏向于特征取值少的属性

悲观剪枝,基于误差率估计

仅用于分类问题,构建多叉树

支持连续与离散特征,能处理缺失值

每个特征只能在一条路径中使用一次

CART

使用基尼指数,避免使用对数函数,偏向于特征取值多的属性

代价复杂度剪枝,考虑损失与复杂度的平衡

用于分类和回归问题,构建二叉树

支持连续与离散特征,能处理缺失值

同一特征可以重复使用于不同层级

三种决策树总结

小样本推荐使用C4.5,大样本推荐使用CART(C4.5多次扫描排序,CART更适用于统计大样本)

回归树

划分标准:使用均方误差 MSE,所有可能划分点中,选择加权平均 MSE最小的点作为最优划分点。

多变量划分策略:每个属性单独找最优划分点,对于每个属性的划分,计算 Weighted Average Variance,选择加权方差最小的属性与划分点。

类似于分类树使用信息增益衡量纯度,这里只不过使用 方差减少替代。

回归树容易在训练集上过拟合,尤其是当继续划分会导致每个叶节点样本极少时。

模型树

跟回归树很类似,唯一不同,叶节点不是一个常数,而是线性模型(比如线性回归)

模型树结构仍为决策树,但是每个叶子拟合的是$y=w_0+w_1x_1+w_2x_2+…$

优点是精度高,线性模型适应性强,能提高预测能力,计算快,仅在叶子结点拟合线性模型,不需要全树建模,可解释性好,每个区域一个线性回归方程,清晰明了

划分标准是标准差减少 SDR Standard Deviation Reduction

用于衡量划分后子集是否变得更集中

划分终止条件为 子集标准差小于全局标准差的某一比例 或者叶子结点样本树小于某个阈值

模型树相较于回归树更容易过拟合,因为拟合能力更强