回归分析 - Stellarium

单变量最小二乘法

Univariate Least Squares

单变量线性回归模型是一个线性方程： $y = w_0 + w_1 x$ 。学习这样的模型需要将其拟合到训练数据样本 $(x_1, y_1), \ldots, (x_n, y_n)$ 上，以最小化损失函数（通常是均方误差，MSE）：

\mathcal{L} = \frac{1}{n} \sum_{i=1}^{n} (y_i - (w_0 + w_1 x_i))^2

为了找到最小化该误差函数的最佳参数 $w_0$ 和 $w_1$ ，我们需要找到误差梯度 $\frac{\partial \mathcal{L}}{\partial w_0}$ 和 $\frac{\partial \mathcal{L}}{\partial w_1}$ 。因此，我们需要通过求偏导数来推导这些表达式，将其设为零，并求解 $w_0$ 和 $w_1$ 。

推导单变量线性回归模型的最小二乘估计（MSE 损失函数的最小化）

对 $w_0$ 求偏导数并设为零：
$\frac{\partial \mathcal{L}}{\partial w_0} = -\frac{2}{n} \sum_{i=1}^{n} (y_i - w_0 - w_1 x_i) = 0$
解得：
$w_0 = \overline{y} - w_1 \overline{x}$
其中， $\overline{x}$ 和 $\overline{y}$ 分别是 $x$ 和 $y$ 的均值。
对 $w_1$ 求偏导数并设为零：
$\frac{\partial \mathcal{L}}{\partial w_1} = -\frac{2}{n} \sum_{i=1}^{n} x_i (y_i - w_0 - w_1 x_i) = 0$
将 $w_0$ 的表达式代入，解得：
$w_1 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2}$
最小二乘估计为：

w_0 = \overline{y} - w_1 \overline{x}, \quad w_1 = \frac{\text{Cov}(x, y)}{\text{Var}(x)}

证明数据的质心，即点 $(\overline{x}, \overline{y})$ ，始终位于最小二乘回归线上

证明：
根据最小二乘估计，回归线方程为： $y = w_0 + w_1 x$ 将 $x = \overline{x}$ 代入，得到： $y = w_0 + w_1 \overline{x} = (\overline{y} - w_1 \overline{x}) + w_1 \overline{x} = \overline{y}$ 因此，点 $(\overline{x}, \overline{y})$ 位于回归线上。

尝试解决以下带有 $L2$ 正则化的线性回归损失函数，其中我们添加了一个惩罚项，惩罚 $w_1$ 的大小。设 $\lambda > 0$ ，考虑正则化损失

\mathcal{L}(w_0, w_1) = \frac{1}{n} \sum_{i=1}^{n} (y_i - (w_0 + w_1 x_i))^2 + \lambda w_1^2

求解步骤：
1. 对 $w_0$ 求偏导数并设为零，得到与普通最小二乘法相同的解：
$w_0 = \overline{y} - w_1 \overline{x}$
1. 对 $w_1$ 求偏导数并设为零：
$\frac{\partial \mathcal{L}}{\partial w_1} = -\frac{2}{n} \sum_{i=1}^{n} x_i (y_i - w_0 - w_1 x_i) + 2 \lambda w_1 = 0$
1. 代入 $w_0$ 的表达式，解得：
$w_1 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n} (x_i - \overline{x})^2 + n \lambda}$
结论：
正则化后的 $w_1$ 比普通最小二乘法的 $w_1$ 更小，体现了正则化对参数大小的惩罚。

多变量最小二乘法

Multivariate Least Squares

在多变量线性回归中，我们推广单变量线性回归到具有 $p$ 个特征的情况。设 $x_1, x_2, \ldots, x_n$ 是 $\mathbb{R}^p$ 中的 $n$ 个特征向量（例如，对应于 $n$ 个实例），即：

x_i = \begin{bmatrix} x_{i0} \\ x_{i1} \\ \vdots \\ x_{ip-1} \end{bmatrix}

我们将这些特征向量堆叠成一个矩阵 $X \in \mathbb{R}^{n \times p}$ ，称为设计矩阵。惯例是将特征向量堆叠起来，使得 $X$ 的每一行对应于一个特定的实例，即：

X = \begin{bmatrix} x_1^T \\ x_2^T \\ \vdots \\ x_n^T \end{bmatrix} = \begin{bmatrix} x_{10} & x_{11} & \cdots & x_{1,p-1} \\ x_{20} & x_{21} & \cdots & x_{2,p-1} \\ \vdots & \vdots & \cdots & \vdots \\ x_{n0} & x_{n1} & \cdots & x_{n,p-1} \end{bmatrix}

其中上标 $T$ 表示转置操作。通常将特征向量的第一个元素设为 1，以考虑偏置项，因此我们假设 $x_{i0} = 1$ 对于所有 $i = 1, \ldots, n$ 。目标是学习一个权重向量 $w \in \mathbb{R}^p$ ，并进行预测：

\hat{y}_i = w^T x_i = w_0 + w_1 x_{i1} + w_2 x_{i2} + \cdots + w_{p-1} x_{i,p-1}

其中 $\hat{y}_i$ 表示第 $i$ 个预测值。为了求解 $w$ 中的最优权重，我们可以使用均方误差（MSE）作为损失函数：

\mathcal{L}(w) = \frac{1}{n} \| y - X w \|_2^2

其中 $\| \cdot \|_2$ 是欧几里得范数。在本问题的其余部分，我们将假设 $X$ 是一个满秩矩阵，这意味着我们可以计算 $X^T X$ 的逆。

证明 $\mathcal{L}(w)$ 有一个临界点 $\hat{w} = (X^T X)^{-1} X^T y$

证明步骤：
1. 展开损失函数：
  $\mathcal{L}(w) = \frac{1}{n} (y - X w)^T (y - X w)$
2. 对 $w$ 求梯度并设为零：
  $\nabla_w \mathcal{L}(w) = -\frac{2}{n} X^T (y - X w) = 0$
  解得：
  $X^T X w = X^T y \quad \Rightarrow \quad w = (X^T X)^{-1} X^T y$

证明临界点 $\hat{w}$ 是全局最小化器

证明：
由于损失函数 $\mathcal{L}(w)$ 是凸函数，其临界点即为全局最小化器。

写出 $p = 2$ 情况下的矩阵和向量

假设 $p = 2$ ，设计矩阵 $X$ 和向量 $y$ 为：

X = \begin{bmatrix} 1 & x_{11} \\ 1 & x_{21} \\ \vdots & \vdots \\ 1 & x_{n1} \end{bmatrix}, \quad y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \quad w = \begin{bmatrix} w_0 \\ w_1 \end{bmatrix}

计算：

X^T X = \begin{bmatrix} n & \sum x_{i1} \\ \sum x_{i1} & \sum x_{i1}^2 \end{bmatrix}, \quad X^T y = \begin{bmatrix} \sum y_i \\ \sum x_{i1} y_i \end{bmatrix}

计算 $p = 2$ 情况下的最小二乘估计

根据公式：

w = (X^T X)^{-1} X^T y

手工和 Python 实现最小二乘法

给定数据：

x = [3, 6, 7, 8, 11], \quad y = [3, 13, 8, 11, 2, 6]

手工计算：
1. 计算 $X^T X$ 和 $X^T y$ 。
2. 求解 $w = (X^T X)^{-1} X^T y$ 。
Python 实现：

import numpy as np
from sklearn.linear_model import LinearRegression

X = np.array([[1, 3], [1, 6], [1, 7], [1, 8], [1, 11]])
y = np.array([3, 13, 8, 11, 2])

w = np.linalg.inv(X.T @ X) @ X.T @ y
print("手工计算的最小二乘估计：", w)

model = LinearRegression().fit(X[:, 1:], y)
print("sklearn 的最小二乘估计：", model.intercept_, model.coef_)