第一编机器学习的数学起点 · 01_第一编_机器学习的数学起点/第3章_监督学习的形成_从经验拟合到统计推断/chapter.md

第3章监督学习的形成：从经验拟合到统计推断

本章核心问题

机器如何利用有限样本学习一个对未知样本仍然有效的规律？

更具体地说，本章希望说明：在第1章已经把学习表述为风险最小化问题、第2章已经建立起表示、概率、损失与优化这些共同数学语言之后，监督学习是如何把这些对象正式组织成一个完整范式的；为什么仅仅拟合训练样本并不等于真正学会了规律；以及“泛化”为什么会成为机器学习理论中的核心概念。

1. 问题背景

第1章提出了现代人工智能的基本转向：学习不再被理解为人工枚举规则，而被理解为从数据中估计未知映射、条件分布与最优决策。第2章则进一步说明，这一过程必须依赖一组统一的数学工具，包括用线性代数表示数据与参数，用概率论刻画随机性，用损失函数与经验风险定义训练目标，用梯度和最优化方法求解参数。到这里，一个更具体也更历史性的问题自然出现：当这些工具已经具备之后，机器究竟应当怎样“正式地学习”？

历史上最早清晰成形的回答便是监督学习。它处理的是这样一种场景：输入与对应输出已经在样本中被一一给定，学习任务不再是无约束地探索结构，而是要从这些带标签样本中抽取一个规律，使其不仅能解释已见数据，还能推广到未来数据。

这一点看似自然，实则意义重大。因为从这里开始，机器学习第一次从“经验拟合”转向“统计推断”。若仅要求模型在训练样本上损失尽可能小，那么它完全可能只是记住了样本本身；而真正的学习必须要求模型在未见样本上仍然有效。于是，训练误差、测试误差、假设空间、模型复杂度与泛化能力等概念，便在监督学习中第一次被系统地组织起来。

从全书结构看，第3章正处在一个关键位置。第1章回答的是“学习为何能被写成数学问题”，第2章回答的是“学习依赖哪些共同数学工具”，而本章要回答的是“这些工具如何被组织为第一个正式的学习范式”。也正因为如此，本章既是前两章的综合，也是后续所有具体模型的出发点。

2. 数学原理

2.1 监督学习的基本对象：样本、标签与数据生成假设

监督学习从一组带标签样本出发。设输入空间为 $\mathcal X$，输出空间为 $\mathcal Y$，训练集写成

\mathcal D_n=\{(x_i,y_i)\}_{i=1}^n.

这里 $\mathcal D_n$ 表示包含 $n$ 个样本的数据集；$x_i\in\mathcal X$ 表示第 $i$ 个输入样本；$y_i\in\mathcal Y$ 表示与之对应的标签、目标值或正确输出。监督学习中的“监督”，指的正是这些外部给定的标签信息。

为了使后续统计分析成为可能，通常进一步假设这些样本是从某个未知联合分布 $P(X,Y)$ 中独立同分布抽取而来。这里大写字母 $X$ 与 $Y$ 表示随机变量，分别代表输入与输出；“独立同分布”意味着各样本彼此独立，并且服从同一数据生成机制。这个假设并不是对现实世界的全部还原，而是监督学习理论赖以展开的标准起点。

若把训练集理解为经验分布，则可写成

\hat P_n=\frac{1}{n}\sum_{i=1}^n \delta_{(x_i,y_i)}.

这里 $\hat P_n$ 表示训练样本诱导出的经验分布；$\delta_{(x_i,y_i)}$ 表示集中在样本点 $(x_i,y_i)$ 上的 Dirac 质量；系数 $\frac{1}{n}$ 表示每个样本点被赋予相同权重。第2章已经说明，经验分布的作用在于把有限样本组织成一个可积分、可优化的数学对象。监督学习中的训练过程，本质上正是在经验分布下进行目标最小化。

因此，监督学习一开始就包含两层结构：表面上，它面对的是有限带标签样本；更深一层上，它试图借助这些样本去逼近未知联合分布背后的条件规律。

2.2 从损失函数到经验风险最小化

为了衡量模型对样本的拟合程度，需要先规定损失函数

L\big(y,f(x)\big).

这里 $L$ 表示单样本损失函数；$y$ 表示真实输出；$f(x)$ 表示模型在输入 $x$ 上的预测。第1章已经指出，损失函数决定了“什么样的预测才算更好”，因此它不仅是一个计算工具，更是学习目标的数学定义。

若模型来自某个假设空间 $\mathcal F$，即候选函数集合

\mathcal F=\{f:\mathcal X\to\mathcal Y\},

则在真实分布 $P(X,Y)$ 下，模型 $f$ 的真实风险为

R(f)=\mathbb E_{(X,Y)\sim P}\big[L(Y,f(X))\big].

这里 $R(f)$ 表示模型在总体分布下的平均损失；$\mathbb E$ 表示期望算子；下标 $(X,Y)\sim P$ 表示随机变量对 $(X,Y)$ 按联合分布 $P$ 取值。真实风险是监督学习真正想控制的对象，因为它对应模型在未来未见样本上的平均表现。

但由于真实分布 $P$ 未知，真实风险无法直接计算。于是监督学习引入经验风险

\hat R_n(f)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big).

这里 $\hat R_n(f)$ 表示训练集上的平均损失；“帽子”说明它是经验量；下标 $n$ 表示与样本数有关。经验风险最小化原则写成

\hat f_n\in\arg\min_{f\in\mathcal F}\hat R_n(f).

这里 $\hat f_n$ 表示基于 $n$ 个样本得到的学习结果；$\arg\min_{f\in\mathcal F}$ 表示在候选函数类 $\mathcal F$ 中寻找使经验风险最小的函数。这个原则把第1章中的一般学习目标第一次具体化为一个可执行的监督学习程序。

然而，到这里为止，监督学习仍然面临一个关键问题：经验风险低是否意味着真实风险也低？若不能回答这一点，那么经验风险最小化就仍可能只是“记住了训练样本”。因此，监督学习的核心难题并不在如何定义训练目标，而在如何理解经验风险与真实风险之间的关系。

2.3 训练误差、测试误差与泛化误差

为了区分“对已见样本拟合得好”与“对未见样本也有效”，必须区分不同层次的误差。

若训练集大小为 $n_{\mathrm{train}}$，则训练误差可写为

\hat R_{\mathrm{train}}(f)=\frac{1}{n_{\mathrm{train}}}\sum_{i=1}^{n_{\mathrm{train}}}L\big(y_i,f(x_i)\big).

这里 $\hat R_{\mathrm{train}}(f)$ 表示模型 $f$ 在训练集上的平均损失。它衡量的是模型对已见样本的拟合程度。

若另有与训练集独立的测试集

\mathcal D_{\mathrm{test}}=\{(x_j^{\mathrm{test}},y_j^{\mathrm{test}})\}_{j=1}^{n_{\mathrm{test}}},

则测试误差写成

\hat R_{\mathrm{test}}(f)=\frac{1}{n_{\mathrm{test}}}\sum_{j=1}^{n_{\mathrm{test}}}L\big(y_j^{\mathrm{test}},f(x_j^{\mathrm{test}})\big).

这里上标“test”表示测试集样本，$n_{\mathrm{test}}$ 表示测试样本数。测试误差的作用，在于近似模型面对新样本时的表现。

从理论上看，更根本的对象是泛化误差，也就是模型真实风险与经验风险之间的差：

\mathrm{Gen}(f)=R(f)-\hat R_n(f).

这里 $\mathrm{Gen}(f)$ 表示模型 $f$ 的泛化间隙。若该量很小，则说明训练集上的表现能够较好代表总体分布上的表现；若该量很大，则说明模型可能只是在训练数据上拟合得好，却没有抽取出可推广的规律。

因此，监督学习的关键不在于单纯最小化训练误差，而在于同时控制经验风险与泛化间隙。换言之，监督学习真正想实现的是：通过有限样本去逼近总体分布上的最优规律，而不是对样本本身进行机械记忆。

2.4 回归与分类的统一表述

监督学习中最常见的任务是回归与分类。它们表面上不同，但在数学上可以被统一组织。

回归问题中，输出空间通常是实数空间，即 $\mathcal Y\subseteq\mathbb R$。模型输出连续值，常见损失为平方损失

L(y,\hat y)=\frac{1}{2}(y-\hat y)^2.

这里 $\hat y=f(x)$ 表示预测值。第1章已经证明，在平方损失下，最优预测对应条件期望 $\mathbb E[Y\mid X=x]$。

分类问题中，输出空间通常是有限类别集合 $\mathcal Y=\{1,2,\dots,C\}$，其中 $C$ 表示类别数。若模型输出类别概率向量

f(x)=\big(q_1(x),q_2(x),\dots,q_C(x)\big),

则其中 $q_c(x)$ 表示输入 $x$ 属于第 $c$ 类的预测概率，并满足

q_c(x)\ge 0,\qquad \sum_{c=1}^C q_c(x)=1.

在这种情况下，分类可以理解为条件分布估计问题，常见损失是交叉熵或负对数似然。

因此，回归与分类虽然输出形式不同，但都可统一写成

\hat f_n\in\arg\min_{f\in\mathcal F}\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big).

它们的区别主要体现在输出空间 $\mathcal Y$ 与损失函数 $L$ 的具体选择不同，而不在于整体学习框架不同。这一统一性正是监督学习能够成为基本范式的重要原因。

2.5 假设空间、模型复杂度与过拟合

监督学习不能只讨论损失函数，还必须讨论模型允许在多大范围内搜索。这一范围由假设空间 $\mathcal F$ 决定。

若 $\mathcal F$ 太小，模型可能无法表达真实规律，从而导致欠拟合；若 $\mathcal F$ 太大，模型又可能轻易把训练样本甚至噪声都记住，从而导致过拟合。也就是说，监督学习的困难并不只在于“如何把经验风险降下来”，还在于“用多大的模型去降经验风险”。

这一点可以抽象写成

\min_{f\in\mathcal F}\hat R_n(f)+\lambda\,\mathrm{Comp}(f).

这里 $\mathrm{Comp}(f)$ 表示模型复杂度度量，$\lambda\ge 0$ 表示复杂度惩罚权重。该式并不要求复杂度只有一种定义，但它揭示了监督学习的一个核心结构：模型训练总是在“拟合训练数据”与“控制模型复杂度”之间寻找平衡。

因此，假设空间不是附属背景，而是学习问题本身的一部分。选择什么样的模型类，实质上就是在选择我们愿意相信什么样的规律可能产生数据。

2.6 偏差—方差权衡的基本思想

监督学习中常用偏差—方差权衡来解释模型复杂度与泛化表现之间的关系。其直观核心是：模型越简单，通常系统性误差越大而随机波动越小；模型越复杂，通常系统性误差越小而对数据扰动越敏感。

在平方损失下，可把固定输入点 $x$ 处的期望预测误差分解为

\mathbb E\big[(Y-\hat f(x))^2\big]=\big(\mathbb E[\hat f(x)]-f^\star(x)\big)^2+\mathbb E\big[(\hat f(x)-\mathbb E[\hat f(x)])^2\big]+\sigma^2.

这里 $f^\star(x)$ 表示真实目标函数在输入 $x$ 处的值；$\hat f(x)$ 表示学习算法基于随机训练集得到的预测；第一项 $\big(\mathbb E[\hat f(x)]-f^\star(x)\big)^2$ 是偏差平方，衡量平均预测相对真实规律的系统偏离；第二项 $\mathbb E[(\hat f(x)-\mathbb E[\hat f(x)])^2]$ 是方差，衡量模型对训练集扰动的敏感性；第三项 $\sigma^2$ 是不可约噪声，来自数据本身的随机性。

这个分解说明，监督学习并不是让某一个误差量单方面最小，而是在偏差与方差之间寻找更合适的平衡点。模型复杂度控制、正则化与模型选择，归根结底都与这一权衡有关。

2.7 泛化的基本思想

泛化问题的核心是：在什么条件下，经验风险能够代表真实风险？虽然完整理论需要更细致的概率工具与复杂度量，但其最基本的思想可以先清楚说明。

对一个固定函数 $f$，经验风险

\hat R_n(f)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big)

可以看作真实风险

R(f)=\mathbb E[L(Y,f(X))]

的样本平均近似。若样本量足够大且损失函数满足适当条件，则依据大数定律，经验风险通常会逼近真实风险。

但监督学习面对的不是单个固定函数，而是整个假设空间 $\mathcal F$。训练算法会在这个空间中挑选经验风险最小的函数，因此真正重要的是控制

\sup_{f\in\mathcal F}\big|R(f)-\hat R_n(f)\big|.

这里 $\sup$ 表示上确界，即在整个假设空间中取最坏情形。若对所有候选函数都能同时保证经验风险与真实风险足够接近，那么经验风险最小化得到的模型才更可能具有泛化能力。

因此，泛化理论的基本思想可以概括为：样本越多越有利于泛化，假设空间越复杂越不利于泛化，而监督学习的成功，正建立在“有限样本与有限复杂度之间可以形成有效平衡”这一事实上。

3. 代表模型或算法

3.1 监督学习的一般流程

监督学习的一般流程可以概括为：

收集带标签样本 $\mathcal D_n=\{(x_i,y_i)\}_{i=1}^n$。
选择假设空间 $\mathcal F$，即规定候选模型形式。
选择损失函数 $L$，明确如何度量预测误差。
构造经验风险 $\hat R_n(f)$ 或带正则项的目标函数。
通过优化算法求得模型 $\hat f_n$。
在验证集或测试集上评估模型的泛化表现。

这套流程的重要性在于，它把第1章中的学习对象与第2章中的数学工具第一次组织成了一个闭合回路：从数据到模型、从模型到目标、从目标到优化、从优化再回到评估。

3.2 回归与分类的统一框架

写成统一形式时，回归与分类都属于

\hat f_n\in\arg\min_{f\in\mathcal F}\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big).

对回归而言，$y_i$ 常为连续数值，损失常取平方误差；对分类而言，$y_i$ 常为离散标签，损失常取 0-1 损失、对数损失或交叉熵。统一形式的意义不在于抹去差异，而在于揭示这些差异都发生在同一个监督学习骨架之内。

3.3 训练集、验证集与测试集的划分逻辑

为了防止模型评估建立在同一批训练样本上，监督学习通常把数据划分为训练集、验证集与测试集。

训练集用于最小化经验风险并学习参数；验证集用于模型选择、超参数调整与早停判断；测试集用于最终评估泛化能力。若把这些角色混用，模型就可能“对评估流程本身过拟合”，从而高估真实能力。

若记总数据集为 $\mathcal D$，则典型划分写成

\mathcal D=\mathcal D_{\mathrm{train}}\cup \mathcal D_{\mathrm{val}}\cup \mathcal D_{\mathrm{test}}, \qquad \mathcal D_{\mathrm{train}}\cap\mathcal D_{\mathrm{val}}=\varnothing, \qquad \mathcal D_{\mathrm{train}}\cap\mathcal D_{\mathrm{test}}=\varnothing, \qquad \mathcal D_{\mathrm{val}}\cap\mathcal D_{\mathrm{test}}=\varnothing.

这里符号“$\cup$”表示并集，“$\cap$”表示交集，“$\varnothing$”表示空集。这个表达说明三部分数据彼此不重叠，并共同构成原始数据集。这样的划分逻辑，是监督学习得以对“拟合能力”与“泛化能力”作区分的制度基础。

4. 典型应用

在评分预测中，输入可以是用户特征与物品特征，输出是连续评分。监督学习把它写成回归问题，通过历史带标签样本学习从特征到评分的映射。

在医学诊断中，输入是症状、检验指标与影像特征，输出是疾病类别或风险概率。这里监督学习不仅要拟合训练样本，更必须特别重视泛化能力，因为样本噪声、分布偏移与误判代价都十分敏感。

在金融违约预测中，输入通常是收入、负债、还款历史等变量，输出是违约标签或违约概率。此类任务直接体现了监督学习中“条件概率估计”和“阈值判决”的结合。

在图像分类中，输入是高维像素或视觉表示，输出是有限类别标签。虽然具体模型后来发展得越来越复杂，但其基本训练逻辑仍然属于监督学习：给定标注样本，最小化经验风险，并检验对未知图像的泛化能力。

这些应用共同说明，监督学习的重要性并不只在于解决某一类特定任务，而在于它提供了一个足够一般的训练与评估框架，能够覆盖从连续预测到离散判别的大量现实问题。

5. 局限性与历史转折

尽管监督学习奠定了机器学习的基本范式，但它仍只是一个框架，而不是具体模型本身。它告诉我们如何组织样本、损失、目标与评估，却没有回答在假设空间 $\mathcal F$ 中究竟应优先选择什么样的函数类。

第一，监督学习要求有标注样本，而标签获取在许多任务中成本很高。这一限制会在后续推动无监督学习、半监督学习与自监督学习的发展。

第二，监督学习虽然明确提出了经验风险、复杂度与泛化问题，但真正可行的方法仍需要模型形式足够简单、求解过程足够稳定、解释方式足够直接。在历史上，最先成熟的正是线性模型，因为它们既便于分析，又便于计算。

第三，监督学习强调推广规律，但“如何推广”最终仍取决于具体模型类、特征表示与优化过程。也就是说，监督学习提供的是学习问题的正式句法，而不是全部答案。

因此，历史上的下一步发展非常自然：既然监督学习框架已经确立，那么最先需要被系统研究的，便是其中最稳定、最经典也最可解析的模型族。这便把讨论带向线性回归与线性分类问题。

6. 本章小结

本章的核心任务，是把监督学习确立为机器学习的第一个正式范式。它从带标签样本出发，通过损失函数定义经验风险，在假设空间中寻找最优模型，并用训练误差、测试误差与泛化误差区分“拟合已见样本”与“推广到未知样本”这两件根本不同的事情。

与第1章相比，本章把“学习为何能数学化”的一般问题推进成了具体的样本学习框架；与第2章相比，本章把线性代数、概率、损失与优化这些共同语言真正组织成了监督学习的标准形式。也正因为如此，监督学习最重要的意义，不只是给出一个训练程序，而是把经验拟合提升为统计推断与泛化分析问题。

但监督学习框架本身还不等于具体方法。历史上接下来最自然的问题是：在这一框架内，什么样的模型最先稳定可用？答案首先出现在最经典的线性模型之中。下一章将从线性回归开始，讨论机器学习史上最早成熟的具体方法。

关键公式

\hat R_n(f)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big)

\hat f_n\in\arg\min_{f\in\mathcal F}\hat R_n(f)

\mathrm{Gen}(f)=R(f)-\hat R_n(f)

\mathbb E\big[(Y-\hat f(x))^2\big]=\big(\mathbb E[\hat f(x)]-f^\star(x)\big)^2+\mathbb E\big[(\hat f(x)-\mathbb E[\hat f(x)])^2\big]+\sigma^2

\sup_{f\in\mathcal F}\big|R(f)-\hat R_n(f)\big|

关键概念

监督学习
经验风险
泛化
假设空间
模型复杂度
偏差—方差权衡
训练集、验证集与测试集

第3章 监督学习的形成：从经验拟合到统计推断