更新于：2025-05-02

数据类型

Numerical 数值型

不需要编码

包括连续变量、离散变量
可用于加减乘除，适合大多数算法直接处理

Categorical 分类型

Nominal 名义型，不同类别，无序，例如颜色、性别，使用 One-Hot 编码
Ordinal 序数型，表示类别，有顺序但无法量化距离，例如评分等级（差、中、好），使用 Label 编码
Binary 二元型，只有两个可能值，例如是否、真假，One-Hot 和 Label 都行，后者更常用

注意事项：

对于树模型（如 XGBoost、Random Forest）来说，Label Encoding 通常也能处理 Nominal 类型，因为它不会假设顺序。
对于线性模型、神经网络等，Nominal 类型必须 One-Hot，否则会学到错误顺序关系。

其他类型

Irrelevant data 无关数据

特征对模型预测无影响，例如ID

应该在EDA或特征选择中被剔除
Missing values 缺失值

常用的处理方法：
- 删除数据直接删除缺失值的样本或者特征，适用于缺失值较少的情况
- 均值/中位数填充适合数值型变量，适用于小数据集
- 预测缺失值用模型预测缺失值，如KNN/回归/多重插补，适用于需要高精度的场景
- 选用支持缺失值的算法，适用于树模型，决策树在训练时可以自动学习“如果某个特征缺失，应当走哪个分支”的策略（比如XGBoost支持设定默认方向）；在测试时，如果遇到缺失特征值，可根据训练中学到的默认路径继续分类；所以无序手动填充缺失值，适用于数据中缺失值较多或者难以估计的情况