Numerical 数值型
不需要编码
包括连续变量、离散变量
可用于加减乘除,适合大多数算法直接处理
Categorical 分类型
Nominal 名义型,不同类别,无序,例如颜色、性别,使用 One-Hot 编码
Ordinal 序数型,表示类别,有顺序但无法量化距离,例如评分等级(差、中、好),使用 Label 编码
Binary 二元型,只有两个可能值,例如是否、真假,One-Hot 和 Label 都行,后者更常用
注意事项:
- 对于树模型(如 XGBoost、Random Forest)来说,Label Encoding 通常也能处理 Nominal 类型,因为它不会假设顺序。
- 对于线性模型、神经网络等,Nominal 类型必须 One-Hot,否则会学到错误顺序关系。
其他类型
Irrelevant data 无关数据
特征对模型预测无影响,例如ID
应该在EDA或特征选择中被剔除
Missing values 缺失值
常用的处理方法:
删除数据 直接删除缺失值的样本或者特征,适用于缺失值较少的情况
均值/中位数填充 适合数值型变量,适用于小数据集
预测缺失值 用模型预测缺失值,如KNN/回归/多重插补,适用于需要高精度的场景
选用支持缺失值的算法,适用于树模型,决策树在训练时可以自动学习“如果某个特征缺失,应当走哪个分支”的策略(比如XGBoost支持设定默认方向);在测试时,如果遇到缺失特征值,可根据训练中学到的默认路径继续分类;所以无序手动填充缺失值,适用于数据中缺失值较多或者难以估计的情况