第一编机器学习的数学起点 · 01_第一编_机器学习的数学起点/第4章_线性回归与最小二乘方法/chapter.md

第4章线性回归与最小二乘方法

本章核心问题

如何从数据中学习连续变量之间最基本的函数关系？

更具体地说，本章要回答：在监督学习框架已经确立之后，为什么历史上最早成熟的具体模型会是线性回归；最小二乘法为何能够同时从代数、几何与概率三个角度得到解释；以及当普通最小二乘遇到不稳定、共线性或高维问题时，正则化为什么会自然出现。

1. 问题背景

第3章已经把监督学习组织为一个完整范式：给定带标签样本，规定损失函数，在假设空间中最小化经验风险，并用泛化能力来判断模型是否真正学到了规律。但监督学习仍然只是一个框架。历史上的下一个问题是：在这一框架内，究竟什么样的模型最先成为稳定、透明且可系统分析的方法？

最早成熟的答案来自线性回归。它首先处理的是连续预测问题，即输出是实数而非离散类别的任务。之所以线性回归会在机器学习史上占据奠基地位，并不是因为现实世界处处线性，而是因为它在几个方面同时具备优势。其一，模型形式简单，参数与特征的关系清楚；其二，最小二乘目标可以显式写成矩阵优化问题，并在适当条件下给出解析解；其三，它既有几何解释，又有概率解释，因此既适合作为计算方法，也适合作为统计建模工具。

更重要的是，线性回归第一次把机器学习中最基本的链条完整展示出来：用参数化模型表示规律，用损失函数定义误差，用优化过程得到参数，再讨论泛化、稳定性与复杂度控制。后续大量模型虽然形式更复杂，但都可以视为在这一原型上的扩展。

因此，本章的意义并不只在于介绍一个“旧方法”，而在于通过最透明的模型，把现代机器学习的基本结构第一次具体化。

2. 数学原理

2.1 线性模型的定义

设输入向量为

x= \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_d \end{bmatrix}\in\mathbb R^d,

这里 $x$ 表示一个样本的特征向量，$x_1,\dots,x_d$ 表示它的 $d$ 个特征分量，$\mathbb R^d$ 表示 $d$ 维实向量空间。线性回归假设输出变量 $Y$ 与输入变量 $X$ 的关系可以写成

Y=\beta_0+\beta^\top X+\varepsilon.

这里大写字母 $X$ 与 $Y$ 表示随机变量；$\beta_0\in\mathbb R$ 表示截距项；$\beta\in\mathbb R^d$ 表示回归系数向量；$\beta^\top X$ 表示参数向量与输入向量的内积；$\varepsilon$ 表示噪声项，用来刻画线性部分不能解释的随机波动。若写成对具体样本 $x$ 的预测函数，则有

f_{\beta_0,\beta}(x)=\beta_0+\beta^\top x.

这里 $f_{\beta_0,\beta}(x)$ 表示模型对输入 $x$ 的预测值。这个式子说明，线性回归的核心不在于数据点“排成直线”，而在于模型把输出写成各特征的加权和。

为了简化后续推导，常把截距并入参数向量。定义增广特征与增广参数为

\tilde x= \begin{bmatrix} 1\\ x \end{bmatrix}\in\mathbb R^{d+1}, \qquad \tilde\beta= \begin{bmatrix} \beta_0\\ \beta \end{bmatrix}\in\mathbb R^{d+1}.

这里额外加入的常数分量 $1$ 用来吸收截距项。于是模型可以统一写成

f_{\tilde\beta}(x)=\tilde\beta^\top \tilde x.

在后文中，为了记号紧凑，默认截距已经被并入参数向量，继续记作 $\beta$。

2.2 最小二乘法：从残差到目标函数

在线性回归中，最常用的损失函数是平方损失。对单个样本 $(x_i,y_i)$，若预测值为 $\hat y_i=f_\beta(x_i)$，则损失写成

L(y_i,\hat y_i)=\frac{1}{2}(y_i-\hat y_i)^2.

这里 $y_i$ 表示真实输出，$\hat y_i$ 表示预测值，前面的系数 $\frac{1}{2}$ 只是为了让求导更简洁。平方损失的特点是：预测误差越大，惩罚增长越快，而且正负误差被对称对待。

若训练集为

\mathcal D_n=\{(x_i,y_i)\}_{i=1}^n,

则经验风险为

\hat R_n(\beta)=\frac{1}{2n}\sum_{i=1}^n \big(y_i-f_\beta(x_i)\big)^2.

这里 $\hat R_n(\beta)$ 表示参数为 $\beta$ 时训练集上的平均平方损失。由于系数 $\frac{1}{2n}$ 不改变最优解，最小二乘法通常直接写成

\hat\beta\in\arg\min_\beta \sum_{i=1}^n \big(y_i-f_\beta(x_i)\big)^2.

这里 $\hat\beta$ 表示由样本估计得到的参数；$\arg\min$ 表示使目标函数达到最小值的参数集合。之所以称为“最小二乘”，正是因为目标函数由残差平方和构成。

2.3 矩阵形式与普通最小二乘解析解

若把所有样本组织成矩阵与向量，记

X= \begin{bmatrix} x_1^\top\\ x_2^\top\\ \vdots\\ x_n^\top \end{bmatrix}\in\mathbb R^{n\times d}, \qquad y= \begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{bmatrix}\in\mathbb R^n,

这里 $X$ 表示设计矩阵，$y$ 表示响应向量。则全部样本的预测向量为 $X\beta$，残差向量为 $y-X\beta$，最小二乘目标可写成

J(\beta)=\frac{1}{2}\|y-X\beta\|_2^2.

这里 $J(\beta)$ 表示关于参数向量 $\beta$ 的目标函数，$\|\cdot\|_2$ 表示 Euclidean 范数，因此 $\|y-X\beta\|_2^2$ 表示残差平方和。

将其展开，有

J(\beta)=\frac{1}{2}(y-X\beta)^\top (y-X\beta)=\frac{1}{2}\big(y^\top y-2\beta^\top X^\top y+\beta^\top X^\top X\beta\big).

这里上标 ${}^\top$ 表示转置。对 $\beta$ 求梯度，可得

\nabla_\beta J(\beta)=X^\top X\beta-X^\top y.

这里 $\nabla_\beta J(\beta)$ 表示关于参数向量 $\beta$ 的梯度。令梯度为零，得到正规方程

X^\top X\beta=X^\top y.

若矩阵 $X^\top X$ 可逆，则普通最小二乘解为

\hat\beta=(X^\top X)^{-1}X^\top y.

这里 $(X^\top X)^{-1}$ 表示矩阵 $X^\top X$ 的逆。这个解析解的重要性在于，它第一次非常清楚地展示了“模型、损失与优化”如何连成一个封闭的数学结构。

2.4 几何解释：正交投影

最小二乘法不仅可以从代数推导得到，还可以从几何上理解。

所有形如 $X\beta$ 的向量构成矩阵 $X$ 的列空间，记作 $\mathrm{Col}(X)$。这里 $\mathrm{Col}(X)\subseteq\mathbb R^n$ 表示由 $X$ 的列向量张成的子空间。线性回归的任务，可以改写为在这个子空间中寻找一个向量，使其与观测向量 $y$ 的距离最小：

\min_{z\in \mathrm{Col}(X)}\|y-z\|_2^2.

这里 $z$ 表示列空间中的任意候选向量。几何上，这意味着把观测向量 $y$ 正交投影到 $\mathrm{Col}(X)$ 上，而最优预测向量 $\hat y=X\hat\beta$ 正是这一投影。

若定义残差向量为

r=y-X\hat\beta,

则正交投影的必要条件是

X^\top r=0.

这里 $r$ 表示观测向量与投影向量之差；等式 $X^\top r=0$ 表示残差向量与列空间中的每一个方向都正交。把 $r=y-X\hat\beta$ 代入，便重新得到

X^\top (y-X\hat\beta)=0,

这正是正规方程。因此，最小二乘的代数解与几何解释是同一个原理的两种表达：在线性子空间里寻找离观测向量最近的点。

2.5 概率解释：高斯噪声与最大似然

线性回归还可以从概率建模角度得到解释。设数据生成机制满足

Y_i=x_i^\top\beta+\varepsilon_i, \qquad \varepsilon_i\overset{\text{i.i.d.}}{\sim}\mathcal N(0,\sigma^2).

这里 $Y_i$ 表示第 $i$ 个样本的随机输出；$x_i^\top\beta$ 表示线性均值结构；$\varepsilon_i$ 表示噪声项；$\overset{\text{i.i.d.}}{\sim}$ 表示独立同分布；$\mathcal N(0,\sigma^2)$ 表示均值为 $0$、方差为 $\sigma^2$ 的高斯分布。

在该假设下，

Y_i\mid x_i \sim \mathcal N(x_i^\top\beta,\sigma^2).

于是单个样本的条件密度为

p(y_i\mid x_i;\beta,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\!\Big(-\frac{(y_i-x_i^\top\beta)^2}{2\sigma^2}\Big).

这里 $p(y_i\mid x_i;\beta,\sigma^2)$ 表示在参数 $(\beta,\sigma^2)$ 下观测到 $y_i$ 的条件概率密度。若样本条件独立，则整体对数似然为

\log L(\beta,\sigma^2)=-\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^n (y_i-x_i^\top\beta)^2.

这里 $\log L(\beta,\sigma^2)$ 表示对数似然函数。固定 $\sigma^2$ 后，最大化对数似然等价于最小化

\sum_{i=1}^n (y_i-x_i^\top\beta)^2.

这恰好就是最小二乘目标。因此，普通最小二乘不仅是代数上的残差平方和最小化，也是高斯噪声假设下的最大似然估计。

这个结果的意义在于：线性回归不只是一个计算方便的拟合公式，而是可以被嵌入完整的概率模型之中，从而使参数估计、置信区间与假设检验获得统计解释。

2.6 欠定、超定与病态问题

线性回归的求解性质高度依赖于样本数 $n$ 与特征维数 $d$ 的关系。

当 $n>d$ 且 $X$ 列满秩时，问题通常是超定的，即约束信息多于未知参数个数。此时一般不存在精确满足 $X\beta=y$ 的解，最小二乘法的作用正是寻找误差最小的近似解。

当 $n=d$ 且矩阵 $X$ 可逆时，在理想无噪情形下可能存在唯一精确解。

当 $n<d$ 或特征之间存在强线性相关时，矩阵 $X^\top X$ 可能不可逆或接近不可逆。此时问题要么欠定，要么病态。即使能够求得某个解，参数也可能极不稳定：输入数据的微小变化会导致参数发生剧烈波动。

这种不稳定性在统计上表现为高方差，在数值上表现为病态矩阵，在学习上表现为过拟合风险上升。正因如此，普通最小二乘并不是线性回归故事的终点，而自然把问题推进到正则化方法。

2.7 岭回归与 Lasso

为缓解参数不稳定与过拟合问题，可以在最小二乘目标中加入正则项。最常见的是岭回归：

\hat\beta_{\mathrm{ridge}}\in\arg\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_2^2\Big).

这里 $\hat\beta_{\mathrm{ridge}}$ 表示岭回归估计量；$\lambda\ge 0$ 表示正则化系数；$\|\beta\|_2^2=\sum_{j=1}^d \beta_j^2$ 表示参数平方和。岭回归通过惩罚参数过大来压缩解的幅度，从而提高稳定性。

对该目标求导并令梯度为零，可得

(X^\top X+\lambda I)\beta=X^\top y.

这里 $I$ 表示 $d\times d$ 单位矩阵。若 $\lambda>0$，则矩阵 $X^\top X+\lambda I$ 通常更稳定，因此岭回归解为

\hat\beta_{\mathrm{ridge}}=(X^\top X+\lambda I)^{-1}X^\top y.

另一种重要方法是 Lasso：

\hat\beta_{\mathrm{lasso}}\in\arg\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_1\Big).

其中

\|\beta\|_1=\sum_{j=1}^d |\beta_j|.

这里 $\|\beta\|_1$ 表示参数向量的 $L^1$ 范数。与岭回归不同，Lasso 更容易产生稀疏解，即让部分参数恰好为零，因此它不仅能稳定估计，还具有变量选择意义。

从几何上看，岭回归与 Lasso 的差别来自约束集合形状不同：$L^2$ 球边界光滑，更倾向于整体缩小参数；$L^1$ 球带有尖角，更容易让最优解落在坐标轴上，从而产生稀疏性。

3. 代表模型或算法

3.1 普通最小二乘

普通最小二乘（ordinary least squares, OLS）是线性回归的标准形式，其目标为

\hat\beta_{\mathrm{OLS}}\in\arg\min_\beta \|y-X\beta\|_2^2.

它的典型性在于：模型形式最简单，目标函数最透明，且在适当条件下具有解析解。因此，它是机器学习史上第一个完整展示“模型—损失—优化”链条的具体方法。

3.2 岭回归

岭回归在最小二乘目标上加入 $L^2$ 正则化：

\hat\beta_{\mathrm{ridge}}\in\arg\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_2^2\Big).

它特别适用于多重共线性较强、参数不稳定或高维近病态的情形，体现了“通过引入一定偏差来换取更低方差”的思想。

3.3 Lasso 回归

Lasso 在最小二乘目标上加入 $L^1$ 正则化：

\hat\beta_{\mathrm{lasso}}\in\arg\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_1\Big).

它在保持线性回归框架不变的同时，引入了稀疏结构，因此在线性模型家族中具有独特地位。

4. 典型应用

4.1 房价预测

房价预测是线性回归最典型的应用之一。若把面积、地段、楼龄、交通便利性、学区等因素编码成特征向量 $x\in\mathbb R^d$，把房价记作连续输出 $y\in\mathbb R$，则该任务可以直接翻译为本章的线性模型

y\approx \beta_0+\beta^\top x.

这里每个参数分量 $\beta_j$ 都对应某一类特征对房价的边际影响。最小二乘目标

\min_\beta \|y-X\beta\|_2^2

在这个应用中的含义是：寻找一组系数，使模型在历史房屋样本上的价格残差平方和最小。换言之，本章中“残差向量”“平方损失”“正规方程”这些抽象对象，在房价预测里分别对应“预测误差”“误差惩罚规则”和“最优定价系数的求解方程”。

若不同特征之间高度相关，例如面积、房间数、建筑面积可能彼此强相关，则矩阵 $X^\top X$ 容易变得病态，普通最小二乘的参数就会不稳定。这时岭回归

\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_2^2\Big)

的意义便非常清楚：它不是改变“房价由特征决定”这一基本建模思路，而是在求解中抑制参数过度波动，使估计更平滑、更稳健。

4.2 时间趋势拟合

在时间趋势拟合中，输入变量往往是时间 $t$、季节指示变量、政策哑变量或外部控制量，输出则是某个连续观测值，例如销售额、温度、人口数量或经济指标。若构造特征向量

x=(1,t,s_1,\dots,s_k,z_1,\dots,z_m)^\top,

则线性回归模型

y\approx \beta^\top x

就把“长期趋势”“季节波动”“外生扰动”统一压缩成了一个线性参数化结构。这里本章中的设计矩阵 $X$，在应用上对应的是“把每个时间点的全部解释变量按行堆叠起来”；参数向量 $\beta$ 则对应各因素的趋势斜率和影响强度。

在这个应用中，几何解释尤其直观：最小二乘实际上是在由这些趋势基函数与季节基函数张成的列空间中，寻找离观测序列 $y$ 最近的投影点。因此，线性回归不是简单地“画一条线”，而是在一个由特征设计决定的线性子空间中寻找最佳近似。

4.3 经济指标建模

在线性经济建模中，研究者常希望分析收入、利率、投资、失业率、消费支出等变量之间的连续关系。若把一个经济指标记作输出 $Y$，把若干解释变量记作输入 $X$，则线性回归模型

Y=\beta_0+\beta^\top X+\varepsilon

的重要性，不仅在于预测，更在于解释。这里本章的概率解释变得尤其关键：噪声项 $\varepsilon$ 不再只是“模型误差”，而被看作未观测因素、测量扰动与随机冲击的聚合。若进一步假设 $\varepsilon\sim\mathcal N(0,\sigma^2)$，则最小二乘估计就可同时被解释为最大似然估计。

也就是说，在经济指标建模中，本章的三个视角会同时发挥作用。代数上，我们通过正规方程求系数；几何上，我们把观测数据投影到解释变量张成的子空间；概率上，我们把残差理解为随机冲击，并据此赋予参数估计统计意义。正因为这种多重解释，线性回归长期以来一直是计量建模的基础工具。

4.4 科学实验中的参数估计

在线性回归的许多科学应用中，研究者真正关心的不是“做一个黑箱预测器”，而是估计某个理论参数。例如在物理实验中，输入可能是施加电压、时间、浓度或温度，输出是观测响应；理论关系在一阶近似下可写成线性模型

y=X\beta+\varepsilon.

这里参数向量 $\beta$ 往往直接对应实验常数、校准系数或理论斜率。因此，本章中的最小二乘目标

\min_\beta \|y-X\beta\|_2^2

在科学实验中的具体含义，就是在观测误差存在的情况下，寻找最能解释实验数据的参数估计。

如果不同实验变量之间高度相关，或者实验样本数量有限，则正则化方法同样具有实际意义。岭回归通过压缩参数减弱估计波动，Lasso 则可在高维实验特征中筛选出更关键的变量。因此，本章讨论的“病态性”“稳定性”“正则化”并不是抽象技术细节，而是会直接影响实验结论可信度的数学问题。

5. 局限性与历史转折

尽管线性回归在机器学习史上具有奠基地位，但它的局限同样清楚。

第一，现实中的输入输出关系往往并不线性。许多任务存在强烈的非线性、交互作用、阈值效应或分段结构，超出了简单加权求和所能表达的范围。

第二，线性回归高度依赖特征设计。若原始输入不能直接线性解释输出，就必须由研究者手工构造变换、交叉项或基函数，这意味着模型能力在很大程度上受制于先验构造。

第三，线性回归主要处理连续输出，对分类边界与概率判别并不自然。即使可以对回归输出再做阈值化处理，也无法直接得到稳定的判别规则和概率意义清楚的分类模型。

第四，正则化虽然能改善稳定性与泛化表现，却并不改变线性模型本身的表达能力上限。它缓解的是病态与过拟合，而不是创造新的非线性结构。

因此，线性回归一方面建立了机器学习中最经典的模型原型，另一方面也明确暴露出线性表达能力的边界。历史上的下一步发展便是从连续预测走向分类判别，并进一步从线性模型迈向更一般的统计学习方法。

6. 本章小结

本章讨论了机器学习史上第一个成熟的具体模型：线性回归。它以线性函数作为假设空间，以平方损失作为误差度量，以最小二乘作为训练原则，并在矩阵形式下给出了清晰的解析解。

更重要的是，线性回归同时拥有三种高度一致的解释。代数上，它通过正规方程求得最优参数；几何上，它把预测理解为对列空间的正交投影；概率上，它对应高斯噪声假设下的最大似然估计。也正因为这种多重统一，线性回归成为后续机器学习模型的第一个标准原型。

但线性回归也清楚展示了线性模型的边界：现实关系常常不够线性，特征工程负担沉重，而连续预测框架也不足以直接处理分类问题。下一章将沿着这条历史脉络，从线性回归转向分类与概率判别模型。

关键公式

Y=\beta_0+\beta^\top X+\varepsilon

\hat\beta\in\arg\min_\beta \|y-X\beta\|_2^2

X^\top X\beta=X^\top y

\hat\beta=(X^\top X)^{-1}X^\top y

\hat\beta_{\mathrm{ridge}}\in\arg\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_2^2\Big)

\hat\beta_{\mathrm{lasso}}\in\arg\min_\beta \Big(\|y-X\beta\|_2^2+\lambda\|\beta\|_1\Big)

关键概念

线性模型
最小二乘
正规方程
正交投影
高斯噪声
正则化
岭回归
Lasso

第4章 线性回归与最小二乘方法