第一编机器学习的数学起点 · 01_第一编_机器学习的数学起点/第5章_分类问题与概率判别模型/chapter.md

第5章分类问题与概率判别模型

本章核心问题

当输出不再是连续值而是类别时，机器如何建立判别边界？

更具体地说，本章要回答：在线性回归已经展示了连续预测问题的标准形式之后，为什么分类问题不能简单地视为“把回归结果四舍五入”；判别边界、感知机、Logistic 回归与 softmax 分类器各自如何把分类任务写成数学对象；以及概率判别模型为什么会成为监督学习从回归走向更现实智能任务的重要一步。

1. 问题背景

第4章已经说明，线性回归是监督学习框架中的第一个成熟模型。它把连续输出建模为输入特征的线性组合，并通过最小二乘法得到可解释、可计算、可分析的参数估计。然而，现实中的大量任务并不要求输出一个连续数值，而是要求系统在有限类别之间作出判断。例如垃圾邮件检测要区分“正常邮件”和“垃圾邮件”，医学筛查要区分“阳性”和“阴性”，图像识别要判断类别标签，文本分类要识别主题或情感。

若把这类问题仍然直接交给线性回归处理，首先会出现输出空间不匹配的问题。线性回归的预测值是实数，既不天然落在类别集合中，也不能自然解释为概率。即使人为设定阈值把连续输出转成类别，这样的模型也缺乏稳定的概率解释，且其训练目标与分类错误本身并不一致。

因此，分类问题推动机器学习向新的方向发展。模型不再只是拟合连续函数值，而是要学习输入空间中的判别边界；同时，为了让分类结果具有可比较性与可解释性，研究者又逐渐引入了概率判别模型，使模型输出能够被理解为条件类别概率。

从全书主线看，这一章处在一个非常自然的位置。第3章已经建立了监督学习的一般句法，第4章已经说明在线性假设空间中如何处理连续预测，而第5章则要回答：当输出是离散类别时，监督学习如何继续推进，并且如何从简单判别规则逐步走向概率化分类模型。

2. 数学原理

2.1 分类问题与判别函数

在线性回归中，输出空间通常是实数空间 $\mathcal Y\subseteq\mathbb R$；而在分类问题中，输出空间通常是有限集合。对二分类问题，可记

\mathcal Y=\{0,1\}

或等价地写成

\mathcal Y=\{-1,+1\}.

这里两个类别分别表示两种互斥状态，例如“垃圾邮件/正常邮件”“阳性/阴性”“违约/不违约”。分类任务的目标，是根据输入 $x\in\mathcal X$，为其分配一个类别标签。

为了建立分类规则，最基本的做法是先构造一个实值判别函数

g:\mathcal X\to\mathbb R,

这里 $g(x)$ 不直接表示类别，而表示输入 $x$ 相对某个类别边界的位置或置信度。对二分类问题，通常取规则

\hat y= \begin{cases} 1, & g(x)\ge 0,\\ 0, & g(x)<0. \end{cases}

这里 $\hat y$ 表示模型预测类别；阈值 $0$ 把输入空间分为两个区域。于是，分类问题首先被转化为“如何构造判别函数 $g(x)$”，而分类边界则由方程

$$ g(x)=0 $$

给出。这个方程定义了输入空间中两个类别的分界面。

若取线性判别函数

g(x)=w^\top x+b,

这里 $w\in\mathbb R^d$ 表示权重向量，$b\in\mathbb R$ 表示偏置项，则分类边界为

w^\top x+b=0.

这说明最简单的线性分类器，本质上仍然是在特征空间中寻找一个超平面，只不过它不再输出连续数值，而是用超平面把空间划成不同类别区域。

2.2 感知机准则与线性可分问题

在线性分类器的早期发展中，感知机是最具代表性的模型之一。若把标签写为 $y_i\in\{-1,+1\}$，则一个样本被正确分类的条件可写成

y_i(w^\top x_i+b)>0.

这里 $x_i$ 表示第 $i$ 个输入样本，$y_i$ 表示其类别标签；当 $y_i=+1$ 时，要求 $w^\top x_i+b>0$；当 $y_i=-1$ 时，要求 $w^\top x_i+b<0$。两种情况都被统一压缩进同一个不等式中。

于是，若某个样本被误分类或恰好落在边界上，则有

y_i(w^\top x_i+b)\le 0.

感知机准则正是针对这些误分类样本构造的目标函数：

J_{\mathrm{perc}}(w,b)=-\sum_{i\in\mathcal M} y_i(w^\top x_i+b).

这里 $\mathcal M$ 表示当前被误分类的样本集合，$J_{\mathrm{perc}}(w,b)$ 表示感知机目标。若样本被误分类，则对应项 $y_i(w^\top x_i+b)$ 非正，因此负号使这些项对目标产生正惩罚；模型的训练目标就是不断减少这类惩罚。

从优化角度看，感知机的参数更新可以写成

w\leftarrow w+\eta y_i x_i, \qquad b\leftarrow b+\eta y_i,

这里 $\eta>0$ 表示学习率。这个更新规则的意义非常直接：若当前样本被误分类，则朝着让该样本更可能被正确分类的方向调整参数。

感知机的重要性在于，它第一次清楚展示了“分类边界可以通过样本驱动的迭代规则学出来”。不过，它依赖线性可分条件，并且不能自然给出概率解释，这也推动了后续概率判别模型的发展。

2.3 Logistic 函数与对数几率

如果希望分类模型不仅输出类别，还输出“属于某一类的概率”，就需要把任意实值判别函数映射到区间 $(0,1)$。最自然的选择之一便是 Logistic 函数

\sigma(z)=\frac{1}{1+e^{-z}}.

这里 $\sigma:\mathbb R\to(0,1)$，即它把任意实数 $z$ 映射为一个介于 $0$ 和 $1$ 之间的数值，因此可解释为概率。

在二分类中，若取线性打分

z=w^\top x+b,

则可把条件概率定义为

P(y=1\mid x)=\sigma(w^\top x+b).

这里 $P(y=1\mid x)$ 表示在输入为 $x$ 的条件下，样本属于正类的概率；$w^\top x+b$ 则是该样本的线性打分。相应地，

P(y=0\mid x)=1-\sigma(w^\top x+b).

Logistic 函数之所以重要，还因为它与对数几率具有简洁关系。定义几率为

\frac{P(y=1\mid x)}{P(y=0\mid x)},

则其对数写成

\log\frac{P(y=1\mid x)}{P(y=0\mid x)}=w^\top x+b.

这里左边称为对数几率（log-odds）。这个公式表明，Logistic 回归并不是直接对概率做线性假设，而是对“对数几率”做线性假设。因此，它既保留了线性模型的透明结构，又使输出具有概率解释。

2.4 极大似然估计与交叉熵损失

一旦把分类模型写成条件概率模型，就可以像第4章中的高斯线性回归一样，引入极大似然估计。

对二分类样本 $(x_i,y_i)$，若标签编码为 $y_i\in\{0,1\}$，并记

p_i=P(y_i=1\mid x_i)=\sigma(w^\top x_i+b),

则单个样本的条件概率可统一写成

P(y_i\mid x_i;w,b)=p_i^{y_i}(1-p_i)^{1-y_i}.

这里当 $y_i=1$ 时，上式退化为 $p_i$；当 $y_i=0$ 时，上式退化为 $1-p_i$。若样本条件独立，则整体对数似然为

\log L(w,b)=\sum_{i=1}^n \Big[y_i\log p_i+(1-y_i)\log(1-p_i)\Big].

这里 $\log L(w,b)$ 表示参数 $(w,b)$ 下训练数据的对数似然。极大似然估计就是寻找使该对数似然最大的参数。

等价地，也可以最小化负对数似然：

J_{\mathrm{log}}(w,b)=-\sum_{i=1}^n \Big[y_i\log p_i+(1-y_i)\log(1-p_i)\Big].

这里 $J_{\mathrm{log}}(w,b)$ 就是二分类中的 Logistic 损失。它正是第2章中交叉熵思想在二分类条件概率模型中的具体化。

若把真实标签分布记作 $p$，模型预测分布记作 $q$，则交叉熵为

\mathrm{CE}(p,q)=-\sum_i p_i\log q_i.

这里 $\mathrm{CE}(p,q)$ 表示交叉熵损失；$p_i$ 表示真实分布在第 $i$ 类上的概率；$q_i$ 表示模型分布在第 $i$ 类上的概率。对于 one-hot 标签，交叉熵会退化为对真实类别概率的负对数。因此，交叉熵并不是“经验上好用”的随意选择，而是由极大似然估计自然导出的训练目标。

2.5 Logistic 回归的优化与判别边界

虽然 Logistic 回归继承了线性打分 $w^\top x+b$，但它与线性回归有两个根本差异。

第一，输出不再是连续实数，而是条件概率 $\sigma(w^\top x+b)$。第二，目标函数不再是平方损失，而是负对数似然或交叉熵。

其判别规则通常写成

\hat y= \begin{cases} 1, & P(y=1\mid x)\ge \frac{1}{2},\\ 0, & P(y=1\mid x)< \frac{1}{2}. \end{cases}

由于 $\sigma(z)\ge \frac{1}{2}$ 当且仅当 $z\ge 0$，因此其判别边界仍然由

w^\top x+b=0

决定。也就是说，Logistic 回归与感知机一样，都是线性分类器；它们的区别不在边界形状，而在训练目标和输出解释。感知机强调把误分类样本推到边界正确一侧，Logistic 回归则强调通过概率模型最大化整个样本的似然。

从优化角度看，Logistic 回归通常没有像普通最小二乘那样的简单解析解，因此需要用梯度下降或其变体迭代求解。若记目标函数为 $J(w,b)$，则参数更新的一般形式为

w\leftarrow w-\eta \nabla_w J(w,b), \qquad b\leftarrow b-\eta \frac{\partial J(w,b)}{\partial b}.

这里 $\eta$ 表示学习率，$\nabla_w J(w,b)$ 表示对参数 $w$ 的梯度。于是，第2章中的梯度优化语言，在分类模型中得到了直接应用。

2.6 softmax 与多分类推广

当类别不再只有两个，而是 $C$ 个类别时，需要把二分类概率模型推广到多分类。设模型对每个类别给出一个打分

z_c=w_c^\top x+b_c, \qquad c=1,2,\dots,C,

这里 $w_c$ 与 $b_c$ 分别表示第 $c$ 类的参数与偏置，$z_c$ 表示输入 $x$ 对第 $c$ 类的线性打分。为了把这些打分转化为合法概率分布，引入 softmax 函数：

P(y=c\mid x)=\frac{e^{z_c}}{\sum_{k=1}^C e^{z_k}}.

这里分子表示第 $c$ 类打分的指数化结果，分母对全部类别做归一化，因此所有类别概率满足

P(y=c\mid x)\ge 0, \qquad \sum_{c=1}^C P(y=c\mid x)=1.

若真实标签采用 one-hot 编码 $y=(y_1,\dots,y_C)$，其中只有真实类别分量为 $1$，则多分类交叉熵写成

J_{\mathrm{softmax}}=-\sum_{i=1}^n \sum_{c=1}^C y_{ic}\log P(y=c\mid x_i).

这里 $y_{ic}$ 表示第 $i$ 个样本是否属于第 $c$ 类。由于 one-hot 编码中每个样本只有一个真实类别，该目标最终等价于对真实类别概率取负对数再求和。

因此，softmax 分类器并不是一个全新的哲学，而是二分类 Logistic 回归在多类别情形下的自然推广。它保留了“线性打分 + 概率归一化 + 极大似然训练”这一整套结构。

3. 代表模型或算法

3.1 感知机

感知机是最早的线性分类器之一。它使用线性判别函数

g(x)=w^\top x+b

来划分类别，并利用误分类样本驱动参数更新。它的典型性在于：第一次明确展示了分类边界可以通过样本迭代学习得到。不过，它依赖线性可分条件，也缺乏概率解释。

3.2 Logistic 回归

Logistic 回归采用条件概率模型

P(y=1\mid x)=\sigma(w^\top x+b),

并通过极大似然或交叉熵损失训练参数。它的典型性在于：在线性边界基础上引入了概率解释，使分类模型第一次在监督学习框架内同时具备判别功能与统计解释。

3.3 softmax 分类器

softmax 分类器把 Logistic 回归推广到多类别情形。它对每个类别使用线性打分，再用 softmax 归一化成概率分布。它的典型性在于：把概率判别模型推广到更现实的多分类任务，为后续大规模分类模型奠定了统一形式。

4. 典型应用

4.1 垃圾邮件检测

在垃圾邮件检测中，输入 $x$ 可以由词频、关键词出现情况、发件人特征、链接数量、格式异常等变量组成，输出 $y\in\{0,1\}$ 表示“正常邮件”或“垃圾邮件”。这一任务在数学上首先对应二分类问题，而不是回归问题，因为输出是离散类别。

若用线性判别函数

g(x)=w^\top x+b,

则这里的参数向量 $w$ 对应不同文本特征对分类判断的权重，$g(x)=0$ 对应垃圾邮件与正常邮件的分界面。感知机在这个应用中的含义是：若一封邮件被误判，就根据其特征向量调整参数，使这封邮件在下一次更可能落到正确一侧。

若进一步用 Logistic 回归建模，则

P(y=1\mid x)=\sigma(w^\top x+b)

在应用中对应“这封邮件是垃圾邮件的概率”。此时本章中的对数几率、极大似然与交叉熵损失，就分别对应“判别强度”“在历史标注邮件上拟合概率模型”“惩罚模型不给真实标签足够高概率”的训练原则。也就是说，本章的概率判别模型在垃圾邮件检测中不是抽象附加物，而是直接决定系统如何输出可解释风险概率。

4.2 医学阳性/阴性诊断

在医学二分类诊断中，输入 $x$ 可以由症状、化验指标、影像特征、年龄、病史等变量组成，输出 $y\in\{0,1\}$ 表示“阴性”或“阳性”。这类任务尤其体现概率判别模型的重要性，因为医学系统通常不仅要输出一个类别，还要给出风险概率，以支持进一步决策。

在这个应用中，线性打分

w^\top x+b

可以理解为把多种临床指标压缩成一个综合风险分值；Logistic 函数

\sigma(w^\top x+b)

则把这个分值转化为阳性概率。于是，本章中的“对数几率线性化”在这里具有明确解释：不同指标通过线性组合影响疾病风险的对数几率，而不是直接影响一个任意实数输出。

极大似然估计在这里的意义是：在已有标注病例上，寻找一组参数，使真实诊断结果出现的概率最大。交叉熵损失则意味着，若模型对真实阳性病例给出的阳性概率过低，或者对真实阴性病例给出的阳性概率过高，就会受到更大惩罚。因此，本章的数学内容在医学应用中直接对应“如何把临床指标转成概率诊断规则”。

4.3 文本主题分类

在文本主题分类中，输入通常是文档表示向量，输出则是“体育、财经、科技、教育”等若干主题类别。由于类别数大于两个，这一任务在数学上更适合写成多分类问题，而不是简单的二分类。

若对每个主题类别建立一个线性打分

z_c=w_c^\top x+b_c,

则这里的 $w_c$ 表示与第 $c$ 个主题相关的特征权重。softmax 公式

P(y=c\mid x)=\frac{e^{z_c}}{\sum_{k=1}^C e^{z_k}}

在应用中的意义是：把每个主题的原始线性打分归一化成一个完整的主题概率分布。这样，系统不只是输出“最可能的主题”，还可以说明该文本在不同主题之间的相对归属程度。

交叉熵损失

-\sum_{c=1}^C y_c\log P(y=c\mid x)

则直接对应“要求模型把更高概率分配给真实主题”。因此，本章中的 softmax 与交叉熵在文本主题分类中的作用，不是单纯的形式替换，而是把多类别判别任务严格转化为一个概率分布拟合问题。

4.4 图像类别识别

在图像类别识别中，输入是图像特征向量，输出是“猫、狗、汽车、飞机”等类别标签。若把图像的像素或手工提取特征表示成向量 $x$，则线性分类器仍然可以尝试在特征空间中学习一个超平面或一组超平面来区分类别。

在二分类图像识别中，本章的分类边界

w^\top x+b=0

表示特征空间中的一条线性分界面；在多分类图像识别中，softmax 分类器则通过多个线性打分共同形成类别判别规则。这里本章的“判别边界”与“softmax 概率归一化”分别对应“如何划分类别区域”和“如何把各类别打分转成可比较概率”。

当然，图像任务也清楚暴露了本章模型的边界。若图像类别之间的分界并不线性可分，则即使感知机、Logistic 回归或 softmax 分类器形式完整，它们仍可能难以找到足够好的线性边界。这也正是本章局限性部分将要指出的历史转折点。

5. 局限性与历史转折

尽管线性分类器与概率判别模型使监督学习更贴近现实任务，但它们的局限同样清楚。

第一，这一类模型的判别边界仍然是线性的。无论是感知机还是 Logistic 回归，若原始特征空间中的类别边界高度弯曲、分段或多模态，单个超平面都难以有效区分样本。

第二，模型性能仍高度依赖特征设计。若手工特征不能把类别结构表达清楚，再好的线性判别规则也难以弥补表示能力不足。

第三，虽然概率解释使分类问题获得统一形式，但概率输出本身并不自动解决复杂结构建模问题。换言之，Logistic 回归解决的是“如何让线性分类器具有概率解释”，而不是“如何让模型具备更强表达能力”。

因此，分类问题一方面推动了从回归走向判别与概率建模，另一方面也清楚暴露出线性边界的限制。历史上的下一步发展，便是从线性分类进一步迈向非线性建模与更一般的统计学习方法。

6. 本章小结

本章讨论了当监督学习的输出从连续值转向离散类别时，模型结构如何发生变化。核心转变在于：学习目标不再是拟合一个连续函数值，而是构造判别函数、建立分类边界，并在更进一步的概率判别模型中，把类别判断写成条件概率估计问题。

感知机展示了线性分类边界如何通过误分类样本迭代学习得到；Logistic 回归则通过 Logistic 函数、对数几率和极大似然估计，为二分类模型赋予了清晰的概率解释；softmax 分类器又把这一框架推广到多分类情形。这样一来，分类问题第一次在监督学习中获得了统一而严整的数学形式。

但这一章也清楚表明，线性分类器的表达能力仍受限于线性边界。下一章将继续沿着这条历史脉络，进入统计学习理论与泛化问题，更系统地讨论模型复杂度、分类边界与泛化能力之间的关系。

关键公式

g(x)=w^\top x+b

P(y=1\mid x)=\sigma(w^\top x+b)

\sigma(z)=\frac{1}{1+e^{-z}}

\log\frac{P(y=1\mid x)}{P(y=0\mid x)}=w^\top x+b

\mathrm{CE}(p,q)=-\sum_i p_i\log q_i

P(y=c\mid x)=\frac{e^{z_c}}{\sum_{k=1}^C e^{z_k}}

关键概念

分类
判别函数
感知机
Logistic 回归
极大似然
交叉熵
softmax
线性分类边界

第5章 分类问题与概率判别模型