正则化是防止过拟合的一种方法,通过在损失函数中添加一个惩罚项来限制模型的复杂度。
下面公式中,第一项是标准的MSE,用于度量预测值和真实值的误差,第二项是正则项,控制参数大小,用于抑制过拟合。
正则化强度$\lambda$过大,模型变得过于简单,可能会欠拟合;反之,则会接近普通的最小二乘法OLS,可能会过拟合。
- 岭回归(L2):
$$
J(\theta) = \sum_{j=1}^{m} (y_j - h_\theta(x_j))^2 + \lambda \sum_{i} \theta_i^2
$$
- Lasso回归(L1):
$$
J(\theta) = \sum_{j=1}^{m} (y_j - h_\theta(x_j))^2 + \lambda \sum_{i} |\theta_i|
$$
可以将某些参数收缩到零,实现特征选择,适用于高维数据,能够自动筛选重要变量,得到稀疏解。
贝叶斯视角下的正则化
方法 | 正则项 | 对应先验分布 | 含义说明 |
---|---|---|---|
Ridge | $L_2$ 范数($|\theta|_2^2$) | 高斯分布 $\mathcal{N}(0, \sigma^2)$ | 假设参数大多接近 0,但不为 0(平滑收缩) |
Lasso | $L_1$ 范数($|\theta|_1$) | 拉普拉斯分布 $\text{Laplace}(0, b)$ | 假设参数集中在 0,鼓励稀疏性(特征选择) |
哪个更简单
对比项 | Ridge 回归 | Lasso 回归 |
---|---|---|
数学难度 | 有闭式解,线性代数求解 | 无闭式解,需要数值优化 |
优化方法 | 一步求解(解析解) | 坐标下降、LARS 等迭代方法 |
正则项性质 | 平滑、可导 | 非平滑、不可导(在 0 点) |
计算效率 | 快速收敛 | 较慢,依赖迭代 |
特征选择 | 无法自动选择特征 | 可以自动使部分系数变为 0 |
总结
- Ridge:高斯先验,平滑收缩,不做特征选择,优化简单
- Lasso:拉普拉斯先验,鼓励稀疏,可做特征选择,优化更复杂
为什么 Ridge 回归不能做特征选择,而 Lasso 回归可以?
Ridge 回归(L2):
- 会将权重“拉向0”,但不会使它们等于0;
- 所以所有特征仍然“在场”,只是影响力变小;
- 本质上是一种 参数收缩(shrinkage),不能实现特征选择。
Lasso 回归(L1):
- 具有“稀疏性”(sparsity);
- 会将一部分不重要的特征对应的权重直接压缩为0;
- 从而实现特征选择(= 删除无用特征)。
Lasso 用于特征选择,Ridge 用于特征收缩;Elastic Net 综合两者优点。