机器学习：正则化

正则化是防止过拟合的一种方法，通过在损失函数中添加一个惩罚项来限制模型的复杂度。

下面公式中，第一项是标准的MSE，用于度量预测值和真实值的误差，第二项是正则项，控制参数大小，用于抑制过拟合。

正则化强度$\lambda$过大，模型变得过于简单，可能会欠拟合；反之，则会接近普通的最小二乘法OLS，可能会过拟合。

$$
J(\theta) = \sum_{j=1}^{m} (y_j - h_\theta(x_j))^2 + \lambda \sum_{i} \theta_i^2
$$

$$
J(\theta) = \sum_{j=1}^{m} (y_j - h_\theta(x_j))^2 + \lambda \sum_{i} |\theta_i|
$$

可以将某些参数收缩到零，实现特征选择，适用于高维数据，能够自动筛选重要变量，得到稀疏解。

贝叶斯视角下的正则化

方法	正则项	对应先验分布	含义说明
Ridge	$L_2$ 范数（$\|\theta\|_2^2$）	高斯分布 $\mathcal{N}(0, \sigma^2)$	假设参数大多接近 0，但不为 0（平滑收缩）
Lasso	$L_1$ 范数（$\|\theta\|_1$）	拉普拉斯分布 $\text{Laplace}(0, b)$	假设参数集中在 0，鼓励稀疏性（特征选择）

为什么 Ridge 回归不能做特征选择，而 Lasso 回归可以？

Ridge 回归（L2）：
- 会将权重“拉向0”，但不会使它们等于0；
- 所以所有特征仍然“在场”，只是影响力变小；
- 本质上是一种 参数收缩（shrinkage），不能实现特征选择。
Lasso 回归（L1）：
- 具有“稀疏性”（sparsity）；
- 会将一部分不重要的特征对应的权重直接压缩为0；
- 从而实现特征选择（= 删除无用特征）。

Lasso 用于特征选择，Ridge 用于特征收缩；Elastic Net 综合两者优点。