当特征维度增加时,样本空间的体积呈指数级增长,导致原有低维直觉与方法失效。此现象被称为维度灾难。
影响表现
空间稀疏性增强
- 数据在高维空间中变得极其稀疏,难以覆盖特征空间。
- 模型难以找到有效的规律。
距离度量失效
- 点与点之间的距离趋于相等,难以区分“近”与“远”。
- KNN、K-means 等基于距离的方法性能急剧下降。
参数估计困难
- 协方差矩阵等高维参数估计所需数据量呈指数增长。
- 模型容易过拟合。
可视化困难
- 人类无法直观理解和分析高维空间。
- 降维成为可视化和理解模型结构的前置步骤。
应对策略
降维(Dimensionality Reduction)
- 压缩特征空间维度,减少冗余信息。
主成分分析(PCA)
- 线性变换方法,将原始特征映射到方差最大的主成分上。
特征选择
- 通过统计方法或模型评估手段保留对目标变量最有用的特征。
特征加权/去相关
- 给特征分配权重或去除无关特征,提高模型泛化能力。