字体大小
第一编 机器学习的数学起点 · 01_第一编_机器学习的数学起点/第3章_监督学习的形成_从经验拟合到统计推断/chapter.md

第3章 监督学习的形成:从经验拟合到统计推断

本章核心问题

机器如何利用有限样本学习一个对未知样本仍然有效的规律?

更具体地说,本章希望说明:在第1章已经把学习表述为风险最小化问题、第2章已经建立起表示、概率、损失与优化这些共同数学语言之后,监督学习是如何把这些对象正式组织成一个完整范式的;为什么仅仅拟合训练样本并不等于真正学会了规律;以及“泛化”为什么会成为机器学习理论中的核心概念。

1. 问题背景

第1章提出了现代人工智能的基本转向:学习不再被理解为人工枚举规则,而被理解为从数据中估计未知映射、条件分布与最优决策。第2章则进一步说明,这一过程必须依赖一组统一的数学工具,包括用线性代数表示数据与参数,用概率论刻画随机性,用损失函数与经验风险定义训练目标,用梯度和最优化方法求解参数。到这里,一个更具体也更历史性的问题自然出现:当这些工具已经具备之后,机器究竟应当怎样“正式地学习”?

历史上最早清晰成形的回答便是监督学习。它处理的是这样一种场景:输入与对应输出已经在样本中被一一给定,学习任务不再是无约束地探索结构,而是要从这些带标签样本中抽取一个规律,使其不仅能解释已见数据,还能推广到未来数据。

这一点看似自然,实则意义重大。因为从这里开始,机器学习第一次从“经验拟合”转向“统计推断”。若仅要求模型在训练样本上损失尽可能小,那么它完全可能只是记住了样本本身;而真正的学习必须要求模型在未见样本上仍然有效。于是,训练误差、测试误差、假设空间、模型复杂度与泛化能力等概念,便在监督学习中第一次被系统地组织起来。

从全书结构看,第3章正处在一个关键位置。第1章回答的是“学习为何能被写成数学问题”,第2章回答的是“学习依赖哪些共同数学工具”,而本章要回答的是“这些工具如何被组织为第一个正式的学习范式”。也正因为如此,本章既是前两章的综合,也是后续所有具体模型的出发点。

2. 数学原理

2.1 监督学习的基本对象:样本、标签与数据生成假设

监督学习从一组带标签样本出发。设输入空间为 $\mathcal X$,输出空间为 $\mathcal Y$,训练集写成

$$ \mathcal D_n=\{(x_i,y_i)\}_{i=1}^n. $$

这里 $\mathcal D_n$ 表示包含 $n$ 个样本的数据集;$x_i\in\mathcal X$ 表示第 $i$ 个输入样本;$y_i\in\mathcal Y$ 表示与之对应的标签、目标值或正确输出。监督学习中的“监督”,指的正是这些外部给定的标签信息。

为了使后续统计分析成为可能,通常进一步假设这些样本是从某个未知联合分布 $P(X,Y)$ 中独立同分布抽取而来。这里大写字母 $X$ 与 $Y$ 表示随机变量,分别代表输入与输出;“独立同分布”意味着各样本彼此独立,并且服从同一数据生成机制。这个假设并不是对现实世界的全部还原,而是监督学习理论赖以展开的标准起点。

若把训练集理解为经验分布,则可写成

$$ \hat P_n=\frac{1}{n}\sum_{i=1}^n \delta_{(x_i,y_i)}. $$

这里 $\hat P_n$ 表示训练样本诱导出的经验分布;$\delta_{(x_i,y_i)}$ 表示集中在样本点 $(x_i,y_i)$ 上的 Dirac 质量;系数 $\frac{1}{n}$ 表示每个样本点被赋予相同权重。第2章已经说明,经验分布的作用在于把有限样本组织成一个可积分、可优化的数学对象。监督学习中的训练过程,本质上正是在经验分布下进行目标最小化。

因此,监督学习一开始就包含两层结构:表面上,它面对的是有限带标签样本;更深一层上,它试图借助这些样本去逼近未知联合分布背后的条件规律。

2.2 从损失函数到经验风险最小化

为了衡量模型对样本的拟合程度,需要先规定损失函数

$$ L\big(y,f(x)\big). $$

这里 $L$ 表示单样本损失函数;$y$ 表示真实输出;$f(x)$ 表示模型在输入 $x$ 上的预测。第1章已经指出,损失函数决定了“什么样的预测才算更好”,因此它不仅是一个计算工具,更是学习目标的数学定义。

若模型来自某个假设空间 $\mathcal F$,即候选函数集合

$$ \mathcal F=\{f:\mathcal X\to\mathcal Y\}, $$

则在真实分布 $P(X,Y)$ 下,模型 $f$ 的真实风险为

$$ R(f)=\mathbb E_{(X,Y)\sim P}\big[L(Y,f(X))\big]. $$

这里 $R(f)$ 表示模型在总体分布下的平均损失;$\mathbb E$ 表示期望算子;下标 $(X,Y)\sim P$ 表示随机变量对 $(X,Y)$ 按联合分布 $P$ 取值。真实风险是监督学习真正想控制的对象,因为它对应模型在未来未见样本上的平均表现。

但由于真实分布 $P$ 未知,真实风险无法直接计算。于是监督学习引入经验风险

$$ \hat R_n(f)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big). $$

这里 $\hat R_n(f)$ 表示训练集上的平均损失;“帽子”说明它是经验量;下标 $n$ 表示与样本数有关。经验风险最小化原则写成

$$ \hat f_n\in\arg\min_{f\in\mathcal F}\hat R_n(f). $$

这里 $\hat f_n$ 表示基于 $n$ 个样本得到的学习结果;$\arg\min_{f\in\mathcal F}$ 表示在候选函数类 $\mathcal F$ 中寻找使经验风险最小的函数。这个原则把第1章中的一般学习目标第一次具体化为一个可执行的监督学习程序。

然而,到这里为止,监督学习仍然面临一个关键问题:经验风险低是否意味着真实风险也低?若不能回答这一点,那么经验风险最小化就仍可能只是“记住了训练样本”。因此,监督学习的核心难题并不在如何定义训练目标,而在如何理解经验风险与真实风险之间的关系。

2.3 训练误差、测试误差与泛化误差

为了区分“对已见样本拟合得好”与“对未见样本也有效”,必须区分不同层次的误差。

若训练集大小为 $n_{\mathrm{train}}$,则训练误差可写为

$$ \hat R_{\mathrm{train}}(f)=\frac{1}{n_{\mathrm{train}}}\sum_{i=1}^{n_{\mathrm{train}}}L\big(y_i,f(x_i)\big). $$

这里 $\hat R_{\mathrm{train}}(f)$ 表示模型 $f$ 在训练集上的平均损失。它衡量的是模型对已见样本的拟合程度。

若另有与训练集独立的测试集

$$ \mathcal D_{\mathrm{test}}=\{(x_j^{\mathrm{test}},y_j^{\mathrm{test}})\}_{j=1}^{n_{\mathrm{test}}}, $$

则测试误差写成

$$ \hat R_{\mathrm{test}}(f)=\frac{1}{n_{\mathrm{test}}}\sum_{j=1}^{n_{\mathrm{test}}}L\big(y_j^{\mathrm{test}},f(x_j^{\mathrm{test}})\big). $$

这里上标“test”表示测试集样本,$n_{\mathrm{test}}$ 表示测试样本数。测试误差的作用,在于近似模型面对新样本时的表现。

从理论上看,更根本的对象是泛化误差,也就是模型真实风险与经验风险之间的差:

$$ \mathrm{Gen}(f)=R(f)-\hat R_n(f). $$

这里 $\mathrm{Gen}(f)$ 表示模型 $f$ 的泛化间隙。若该量很小,则说明训练集上的表现能够较好代表总体分布上的表现;若该量很大,则说明模型可能只是在训练数据上拟合得好,却没有抽取出可推广的规律。

因此,监督学习的关键不在于单纯最小化训练误差,而在于同时控制经验风险与泛化间隙。换言之,监督学习真正想实现的是:通过有限样本去逼近总体分布上的最优规律,而不是对样本本身进行机械记忆。

2.4 回归与分类的统一表述

监督学习中最常见的任务是回归与分类。它们表面上不同,但在数学上可以被统一组织。

回归问题中,输出空间通常是实数空间,即 $\mathcal Y\subseteq\mathbb R$。模型输出连续值,常见损失为平方损失

$$ L(y,\hat y)=\frac{1}{2}(y-\hat y)^2. $$

这里 $\hat y=f(x)$ 表示预测值。第1章已经证明,在平方损失下,最优预测对应条件期望 $\mathbb E[Y\mid X=x]$。

分类问题中,输出空间通常是有限类别集合 $\mathcal Y=\{1,2,\dots,C\}$,其中 $C$ 表示类别数。若模型输出类别概率向量

$$ f(x)=\big(q_1(x),q_2(x),\dots,q_C(x)\big), $$

则其中 $q_c(x)$ 表示输入 $x$ 属于第 $c$ 类的预测概率,并满足

$$ q_c(x)\ge 0,\qquad \sum_{c=1}^C q_c(x)=1. $$

在这种情况下,分类可以理解为条件分布估计问题,常见损失是交叉熵或负对数似然。

因此,回归与分类虽然输出形式不同,但都可统一写成

$$ \hat f_n\in\arg\min_{f\in\mathcal F}\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big). $$

它们的区别主要体现在输出空间 $\mathcal Y$ 与损失函数 $L$ 的具体选择不同,而不在于整体学习框架不同。这一统一性正是监督学习能够成为基本范式的重要原因。

2.5 假设空间、模型复杂度与过拟合

监督学习不能只讨论损失函数,还必须讨论模型允许在多大范围内搜索。这一范围由假设空间 $\mathcal F$ 决定。

若 $\mathcal F$ 太小,模型可能无法表达真实规律,从而导致欠拟合;若 $\mathcal F$ 太大,模型又可能轻易把训练样本甚至噪声都记住,从而导致过拟合。也就是说,监督学习的困难并不只在于“如何把经验风险降下来”,还在于“用多大的模型去降经验风险”。

这一点可以抽象写成

$$ \min_{f\in\mathcal F}\hat R_n(f)+\lambda\,\mathrm{Comp}(f). $$

这里 $\mathrm{Comp}(f)$ 表示模型复杂度度量,$\lambda\ge 0$ 表示复杂度惩罚权重。该式并不要求复杂度只有一种定义,但它揭示了监督学习的一个核心结构:模型训练总是在“拟合训练数据”与“控制模型复杂度”之间寻找平衡。

因此,假设空间不是附属背景,而是学习问题本身的一部分。选择什么样的模型类,实质上就是在选择我们愿意相信什么样的规律可能产生数据。

2.6 偏差—方差权衡的基本思想

监督学习中常用偏差—方差权衡来解释模型复杂度与泛化表现之间的关系。其直观核心是:模型越简单,通常系统性误差越大而随机波动越小;模型越复杂,通常系统性误差越小而对数据扰动越敏感。

在平方损失下,可把固定输入点 $x$ 处的期望预测误差分解为

$$ \mathbb E\big[(Y-\hat f(x))^2\big]=\big(\mathbb E[\hat f(x)]-f^\star(x)\big)^2+\mathbb E\big[(\hat f(x)-\mathbb E[\hat f(x)])^2\big]+\sigma^2. $$

这里 $f^\star(x)$ 表示真实目标函数在输入 $x$ 处的值;$\hat f(x)$ 表示学习算法基于随机训练集得到的预测;第一项 $\big(\mathbb E[\hat f(x)]-f^\star(x)\big)^2$ 是偏差平方,衡量平均预测相对真实规律的系统偏离;第二项 $\mathbb E[(\hat f(x)-\mathbb E[\hat f(x)])^2]$ 是方差,衡量模型对训练集扰动的敏感性;第三项 $\sigma^2$ 是不可约噪声,来自数据本身的随机性。

这个分解说明,监督学习并不是让某一个误差量单方面最小,而是在偏差与方差之间寻找更合适的平衡点。模型复杂度控制、正则化与模型选择,归根结底都与这一权衡有关。

2.7 泛化的基本思想

泛化问题的核心是:在什么条件下,经验风险能够代表真实风险?虽然完整理论需要更细致的概率工具与复杂度量,但其最基本的思想可以先清楚说明。

对一个固定函数 $f$,经验风险

$$ \hat R_n(f)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big) $$

可以看作真实风险

$$ R(f)=\mathbb E[L(Y,f(X))] $$

的样本平均近似。若样本量足够大且损失函数满足适当条件,则依据大数定律,经验风险通常会逼近真实风险。

但监督学习面对的不是单个固定函数,而是整个假设空间 $\mathcal F$。训练算法会在这个空间中挑选经验风险最小的函数,因此真正重要的是控制

$$ \sup_{f\in\mathcal F}\big|R(f)-\hat R_n(f)\big|. $$

这里 $\sup$ 表示上确界,即在整个假设空间中取最坏情形。若对所有候选函数都能同时保证经验风险与真实风险足够接近,那么经验风险最小化得到的模型才更可能具有泛化能力。

因此,泛化理论的基本思想可以概括为:样本越多越有利于泛化,假设空间越复杂越不利于泛化,而监督学习的成功,正建立在“有限样本与有限复杂度之间可以形成有效平衡”这一事实上。

3. 代表模型或算法

3.1 监督学习的一般流程

监督学习的一般流程可以概括为:

  1. 收集带标签样本 $\mathcal D_n=\{(x_i,y_i)\}_{i=1}^n$。
  2. 选择假设空间 $\mathcal F$,即规定候选模型形式。
  3. 选择损失函数 $L$,明确如何度量预测误差。
  4. 构造经验风险 $\hat R_n(f)$ 或带正则项的目标函数。
  5. 通过优化算法求得模型 $\hat f_n$。
  6. 在验证集或测试集上评估模型的泛化表现。

这套流程的重要性在于,它把第1章中的学习对象与第2章中的数学工具第一次组织成了一个闭合回路:从数据到模型、从模型到目标、从目标到优化、从优化再回到评估。

3.2 回归与分类的统一框架

写成统一形式时,回归与分类都属于

$$ \hat f_n\in\arg\min_{f\in\mathcal F}\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big). $$

对回归而言,$y_i$ 常为连续数值,损失常取平方误差;对分类而言,$y_i$ 常为离散标签,损失常取 0-1 损失、对数损失或交叉熵。统一形式的意义不在于抹去差异,而在于揭示这些差异都发生在同一个监督学习骨架之内。

3.3 训练集、验证集与测试集的划分逻辑

为了防止模型评估建立在同一批训练样本上,监督学习通常把数据划分为训练集、验证集与测试集。

训练集用于最小化经验风险并学习参数;验证集用于模型选择、超参数调整与早停判断;测试集用于最终评估泛化能力。若把这些角色混用,模型就可能“对评估流程本身过拟合”,从而高估真实能力。

若记总数据集为 $\mathcal D$,则典型划分写成

$$ \mathcal D=\mathcal D_{\mathrm{train}}\cup \mathcal D_{\mathrm{val}}\cup \mathcal D_{\mathrm{test}}, \qquad \mathcal D_{\mathrm{train}}\cap\mathcal D_{\mathrm{val}}=\varnothing, \qquad \mathcal D_{\mathrm{train}}\cap\mathcal D_{\mathrm{test}}=\varnothing, \qquad \mathcal D_{\mathrm{val}}\cap\mathcal D_{\mathrm{test}}=\varnothing. $$

这里符号“$\cup$”表示并集,“$\cap$”表示交集,“$\varnothing$”表示空集。这个表达说明三部分数据彼此不重叠,并共同构成原始数据集。这样的划分逻辑,是监督学习得以对“拟合能力”与“泛化能力”作区分的制度基础。

4. 典型应用

在评分预测中,输入可以是用户特征与物品特征,输出是连续评分。监督学习把它写成回归问题,通过历史带标签样本学习从特征到评分的映射。

在医学诊断中,输入是症状、检验指标与影像特征,输出是疾病类别或风险概率。这里监督学习不仅要拟合训练样本,更必须特别重视泛化能力,因为样本噪声、分布偏移与误判代价都十分敏感。

在金融违约预测中,输入通常是收入、负债、还款历史等变量,输出是违约标签或违约概率。此类任务直接体现了监督学习中“条件概率估计”和“阈值判决”的结合。

在图像分类中,输入是高维像素或视觉表示,输出是有限类别标签。虽然具体模型后来发展得越来越复杂,但其基本训练逻辑仍然属于监督学习:给定标注样本,最小化经验风险,并检验对未知图像的泛化能力。

这些应用共同说明,监督学习的重要性并不只在于解决某一类特定任务,而在于它提供了一个足够一般的训练与评估框架,能够覆盖从连续预测到离散判别的大量现实问题。

5. 局限性与历史转折

尽管监督学习奠定了机器学习的基本范式,但它仍只是一个框架,而不是具体模型本身。它告诉我们如何组织样本、损失、目标与评估,却没有回答在假设空间 $\mathcal F$ 中究竟应优先选择什么样的函数类。

第一,监督学习要求有标注样本,而标签获取在许多任务中成本很高。这一限制会在后续推动无监督学习、半监督学习与自监督学习的发展。

第二,监督学习虽然明确提出了经验风险、复杂度与泛化问题,但真正可行的方法仍需要模型形式足够简单、求解过程足够稳定、解释方式足够直接。在历史上,最先成熟的正是线性模型,因为它们既便于分析,又便于计算。

第三,监督学习强调推广规律,但“如何推广”最终仍取决于具体模型类、特征表示与优化过程。也就是说,监督学习提供的是学习问题的正式句法,而不是全部答案。

因此,历史上的下一步发展非常自然:既然监督学习框架已经确立,那么最先需要被系统研究的,便是其中最稳定、最经典也最可解析的模型族。这便把讨论带向线性回归与线性分类问题。

6. 本章小结

本章的核心任务,是把监督学习确立为机器学习的第一个正式范式。它从带标签样本出发,通过损失函数定义经验风险,在假设空间中寻找最优模型,并用训练误差、测试误差与泛化误差区分“拟合已见样本”与“推广到未知样本”这两件根本不同的事情。

与第1章相比,本章把“学习为何能数学化”的一般问题推进成了具体的样本学习框架;与第2章相比,本章把线性代数、概率、损失与优化这些共同语言真正组织成了监督学习的标准形式。也正因为如此,监督学习最重要的意义,不只是给出一个训练程序,而是把经验拟合提升为统计推断与泛化分析问题。

但监督学习框架本身还不等于具体方法。历史上接下来最自然的问题是:在这一框架内,什么样的模型最先稳定可用?答案首先出现在最经典的线性模型之中。下一章将从线性回归开始,讨论机器学习史上最早成熟的具体方法。

关键公式

$$ \hat R_n(f)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f(x_i)\big) $$
$$ \hat f_n\in\arg\min_{f\in\mathcal F}\hat R_n(f) $$
$$ \mathrm{Gen}(f)=R(f)-\hat R_n(f) $$
$$ \mathbb E\big[(Y-\hat f(x))^2\big]=\big(\mathbb E[\hat f(x)]-f^\star(x)\big)^2+\mathbb E\big[(\hat f(x)-\mathbb E[\hat f(x)])^2\big]+\sigma^2 $$
$$ \sup_{f\in\mathcal F}\big|R(f)-\hat R_n(f)\big| $$

关键概念

  • 监督学习
  • 经验风险
  • 泛化
  • 假设空间
  • 模型复杂度
  • 偏差—方差权衡
  • 训练集、验证集与测试集