Numerical 数值型

不需要编码

  • 包括连续变量、离散变量

  • 可用于加减乘除,适合大多数算法直接处理

Categorical 分类型

  • Nominal 名义型,不同类别,无序,例如颜色、性别,使用 One-Hot 编码

  • Ordinal 序数型,表示类别,有顺序但无法量化距离,例如评分等级(差、中、好),使用 Label 编码

  • Binary 二元型,只有两个可能值,例如是否、真假,One-HotLabel 都行,后者更常用

注意事项:

  • 对于树模型(如 XGBoost、Random Forest)来说,Label Encoding 通常也能处理 Nominal 类型,因为它不会假设顺序。
  • 对于线性模型、神经网络等,Nominal 类型必须 One-Hot,否则会学到错误顺序关系。

其他类型

  • Irrelevant data 无关数据

    特征对模型预测无影响,例如ID

    应该在EDA或特征选择中被剔除

  • Missing values 缺失值

    常用的处理方法:

    • 删除数据 直接删除缺失值的样本或者特征,适用于缺失值较少的情况

    • 均值/中位数填充 适合数值型变量,适用于小数据集

    • 预测缺失值 用模型预测缺失值,如KNN/回归/多重插补,适用于需要高精度的场景

    • 选用支持缺失值的算法,适用于树模型,决策树在训练时可以自动学习“如果某个特征缺失,应当走哪个分支”的策略(比如XGBoost支持设定默认方向);在测试时,如果遇到缺失特征值,可根据训练中学到的默认路径继续分类;所以无序手动填充缺失值,适用于数据中缺失值较多或者难以估计的情况