正则化是防止过拟合的一种方法,通过在损失函数中添加一个惩罚项来限制模型的复杂度。

下面公式中,第一项是标准的MSE,用于度量预测值和真实值的误差,第二项是正则项,控制参数大小,用于抑制过拟合。

正则化强度$\lambda$过大,模型变得过于简单,可能会欠拟合;反之,则会接近普通的最小二乘法OLS,可能会过拟合。

  • 岭回归(L2):

$$
J(\theta) = \sum_{j=1}^{m} (y_j - h_\theta(x_j))^2 + \lambda \sum_{i} \theta_i^2
$$

  • Lasso回归(L1):

$$
J(\theta) = \sum_{j=1}^{m} (y_j - h_\theta(x_j))^2 + \lambda \sum_{i} |\theta_i|
$$

可以将某些参数收缩到零,实现特征选择,适用于高维数据,能够自动筛选重要变量,得到稀疏解。

贝叶斯视角下的正则化

方法 正则项 对应先验分布 含义说明
Ridge $L_2$ 范数($|\theta|_2^2$) 高斯分布 $\mathcal{N}(0, \sigma^2)$ 假设参数大多接近 0,但不为 0(平滑收缩)
Lasso $L_1$ 范数($|\theta|_1$) 拉普拉斯分布 $\text{Laplace}(0, b)$ 假设参数集中在 0,鼓励稀疏性(特征选择)

哪个更简单

对比项 Ridge 回归 Lasso 回归
数学难度 有闭式解,线性代数求解 无闭式解,需要数值优化
优化方法 一步求解(解析解) 坐标下降、LARS 等迭代方法
正则项性质 平滑、可导 非平滑、不可导(在 0 点)
计算效率 快速收敛 较慢,依赖迭代
特征选择 无法自动选择特征 可以自动使部分系数变为 0

总结

  • Ridge:高斯先验,平滑收缩,不做特征选择,优化简单
  • Lasso:拉普拉斯先验,鼓励稀疏,可做特征选择,优化更复杂

为什么 Ridge 回归不能做特征选择,而 Lasso 回归可以?

  • Ridge 回归(L2)

    • 会将权重“拉向0”,但不会使它们等于0
    • 所以所有特征仍然“在场”,只是影响力变小;
    • 本质上是一种 参数收缩(shrinkage)不能实现特征选择
  • Lasso 回归(L1)

    • 具有“稀疏性”(sparsity);
    • 会将一部分不重要的特征对应的权重直接压缩为0
    • 从而实现特征选择(= 删除无用特征)。

Lasso 用于特征选择,Ridge 用于特征收缩;Elastic Net 综合两者优点。