当特征维度增加时,样本空间的体积呈指数级增长,导致原有低维直觉与方法失效。此现象被称为维度灾难。

影响表现

  1. 空间稀疏性增强

    • 数据在高维空间中变得极其稀疏,难以覆盖特征空间。
    • 模型难以找到有效的规律。
  2. 距离度量失效

    • 点与点之间的距离趋于相等,难以区分“近”与“远”。
    • KNN、K-means 等基于距离的方法性能急剧下降。
  3. 参数估计困难

    • 协方差矩阵等高维参数估计所需数据量呈指数增长。
    • 模型容易过拟合。
  4. 可视化困难

    • 人类无法直观理解和分析高维空间。
    • 降维成为可视化和理解模型结构的前置步骤。

应对策略

  1. 降维(Dimensionality Reduction)

    • 压缩特征空间维度,减少冗余信息。
  2. 主成分分析(PCA)

    • 线性变换方法,将原始特征映射到方差最大的主成分上。
  3. 特征选择

    • 通过统计方法或模型评估手段保留对目标变量最有用的特征。
  4. 特征加权/去相关

    • 给特征分配权重或去除无关特征,提高模型泛化能力。