ID3
使用信息增益,偏向于特征值多的属性
无剪枝,容易过拟合
仅用于分类问题,构建多叉树
只能处理离散型特征,对缺失值敏感
每个特征只能在一条路径中使用一次
C4.5
使用信息增益率,克服信息增益偏差,偏向于特征取值少的属性
悲观剪枝,基于误差率估计
仅用于分类问题,构建多叉树
支持连续与离散特征,能处理缺失值
每个特征只能在一条路径中使用一次
CART
使用基尼指数,避免使用对数函数,偏向于特征取值多的属性
代价复杂度剪枝,考虑损失与复杂度的平衡
用于分类和回归问题,构建二叉树
支持连续与离散特征,能处理缺失值
同一特征可以重复使用于不同层级
三种决策树总结
小样本推荐使用C4.5,大样本推荐使用CART(C4.5多次扫描排序,CART更适用于统计大样本)
回归树
划分标准:使用均方误差 MSE,所有可能划分点中,选择加权平均 MSE最小的点作为最优划分点。
多变量划分策略:每个属性单独找最优划分点,对于每个属性的划分,计算 Weighted Average Variance,选择加权方差最小的属性与划分点。
类似于分类树使用信息增益衡量纯度,这里只不过使用 方差减少替代。
回归树容易在训练集上过拟合,尤其是当继续划分会导致每个叶节点样本极少时。
模型树
跟回归树很类似,唯一不同,叶节点不是一个常数,而是线性模型(比如线性回归)
模型树结构仍为决策树,但是每个叶子拟合的是$y=w_0+w_1x_1+w_2x_2+…$
优点是精度高,线性模型适应性强,能提高预测能力,计算快,仅在叶子结点拟合线性模型,不需要全树建模,可解释性好,每个区域一个线性回归方程,清晰明了
划分标准是标准差减少 SDR Standard Deviation Reduction
用于衡量划分后子集是否变得更集中
划分终止条件为 子集标准差小于全局标准差的某一比例 或者叶子结点样本树小于某个阈值
模型树相较于回归树更容易过拟合,因为拟合能力更强