机器学习：决策树

使用信息增益，偏向于特征值多的属性

无剪枝，容易过拟合

仅用于分类问题，构建多叉树

只能处理离散型特征，对缺失值敏感

每个特征只能在一条路径中使用一次

使用信息增益率，克服信息增益偏差，偏向于特征取值少的属性

悲观剪枝，基于误差率估计

仅用于分类问题，构建多叉树

支持连续与离散特征，能处理缺失值

每个特征只能在一条路径中使用一次

使用基尼指数，避免使用对数函数，偏向于特征取值多的属性

代价复杂度剪枝，考虑损失与复杂度的平衡

用于分类和回归问题，构建二叉树

支持连续与离散特征，能处理缺失值

同一特征可以重复使用于不同层级

小样本推荐使用C4.5，大样本推荐使用CART（C4.5多次扫描排序，CART更适用于统计大样本）

划分标准：使用均方误差 MSE，所有可能划分点中，选择加权平均 MSE最小的点作为最优划分点。

多变量划分策略：每个属性单独找最优划分点，对于每个属性的划分，计算 Weighted Average Variance，选择加权方差最小的属性与划分点。

类似于分类树使用信息增益衡量纯度，这里只不过使用 方差减少替代。

回归树容易在训练集上过拟合，尤其是当继续划分会导致每个叶节点样本极少时。

跟回归树很类似，唯一不同，叶节点不是一个常数，而是线性模型（比如线性回归）

模型树结构仍为决策树，但是每个叶子拟合的是$y=w_0+w_1x_1+w_2x_2+…$

优点是精度高，线性模型适应性强，能提高预测能力，计算快，仅在叶子结点拟合线性模型，不需要全树建模，可解释性好，每个区域一个线性回归方程，清晰明了

划分标准是标准差减少 SDR Standard Deviation Reduction

用于衡量划分后子集是否变得更集中

划分终止条件为子集标准差小于全局标准差的某一比例或者叶子结点样本树小于某个阈值

模型树相较于回归树更容易过拟合，因为拟合能力更强