第二编非线性学习与表示问题的提出 · 02_第二编_非线性学习与表示问题的提出/第8章_核方法与支持向量机/chapter.md

第8章核方法与支持向量机

本章核心问题

如何以优雅的数学方式提高非线性表达能力，同时保持理论可分析性？

更具体地说，第7章已经说明：当线性模型在原始输入空间中失效时，我们可以通过特征映射 $\phi(x)$ 把问题转移到更高维的表示空间中，再在新空间里继续使用线性方法。然而，显式构造高维特征既昂贵又依赖人工设计。本章要回答的是：是否存在一种方式，使我们不必真的把高维特征全部写出来，却依然能够利用它们带来的非线性表达能力？核方法与支持向量机正是在这一问题上给出了一个高度数学化的回答。

1. 问题背景

第7章把机器学习推进到了“特征空间”阶段。研究者已经知道，很多原始空间中难以处理的问题，只要经过合适的表示变换，就可以在新空间中重新写成线性学习任务。这一思想极其深刻，因为它把非线性问题转换成了“在更合适坐标系里做线性学习”的问题。

但是，这一路线很快暴露出新的困难。若特征映射 $\phi:\mathcal X\to\mathbb R^m$ 的维数 $m$ 很大，那么显式构造 $\phi(x)$ 本身就会带来巨大的计算与存储负担。更麻烦的是，许多有用的非线性特征并不是几十维、几百维，而可能是成千上万维，甚至可以被理解为某种无限维表示。若仍然坚持把这些坐标一项一项列出来，模型训练就会迅速变得不可承受。

与此同时，第一编第6章已经给出了另一个重要背景：统计学习理论不仅关心拟合能力，还关心泛化能力。于是，新的问题不只是“如何更强地拟合”，还包括“如何在增强非线性能力的同时，保持理论上的可控性”。支持向量机之所以在机器学习史上具有里程碑意义，就在于它恰好站在这两个问题的交叉点上：一方面，它通过核技巧获得了强大的非线性判别能力；另一方面，它又直接继承了结构风险最小化与间隔理论的统计学习背景。

因此，从第7章过渡到本章，并不是简单从“特征工程”转向“另一种算法”，而是从显式特征构造转向一种更优雅的数学机制：不显式进入高维空间，却能在计算中隐式使用高维空间中的内积结构。

2. 数学原理

2.1 线性可分与分类间隔

先从最基础的线性分类开始。设训练样本为

\mathcal D_n=\{(x_i,y_i)\}_{i=1}^n,

这里 $x_i\in\mathbb R^d$ 表示第 $i$ 个输入向量，$y_i\in\{-1,+1\}$ 表示对应类别标记，$n$ 表示样本数。一个线性分类器写成

f(x)=\mathrm{sign}(w^\top x+b).

这里 $w\in\mathbb R^d$ 表示法向量，$b\in\mathbb R$ 表示偏置项，$\mathrm{sign}(\cdot)$ 表示符号函数。若所有训练样本都满足

y_i(w^\top x_i+b)>0,

则称这些样本关于超平面 $w^\top x+b=0$ 是线性可分的。式中的乘积 $y_i(w^\top x_i+b)$ 有很清楚的含义：当样本被正确分类时它为正，且数值越大，说明样本离决策边界越“远”。

这就引出了“间隔”概念。若把参数 $(w,b)$ 同时乘以一个正常数，分类结果并不会改变，因此我们可以加上归一化条件，使最靠近边界的样本满足

y_i(w^\top x_i+b)\ge 1.

在这个约束下，几何间隔等于

\gamma=\frac{1}{\|w\|_2}.

这里 $\|w\|_2$ 表示向量 $w$ 的欧几里得范数，$\gamma$ 表示分类超平面到最近样本点的距离尺度。于是，最大化间隔就等价于最小化 $\|w\|_2$，更常见地写成最小化 $\|w\|_2^2/2$。这一步非常关键，因为它把一个几何直觉问题转成了严格优化问题。

2.2 硬间隔支持向量机

对于线性可分数据，硬间隔支持向量机的原始优化问题写成

\min_{w,b}\frac{1}{2}\|w\|_2^2

并满足约束

y_i(w^\top x_i+b)\ge 1,\qquad i=1,2,\dots,n.

这里目标函数 $\frac{1}{2}\|w\|_2^2$ 用来控制超平面的复杂度并最大化间隔，约束条件则要求所有样本都被正确分类且至少离边界有单位函数间隔。这个模型的思想可以概括为：在所有能把训练集分开的超平面中，选择离最近样本最远的那一个。

这一目标与第一编第6章中的结构风险最小化思想高度一致。训练误差在可分情况下已经被压到零，剩下的关键就是复杂度控制。支持向量机把这种控制具体落实到了间隔最大化上。

2.3 拉格朗日函数与对偶问题

支持向量机之所以成为经典模型，不仅因为它有清晰的几何解释，更因为它可以推导出一个结构优美的对偶问题。为此，引入拉格朗日乘子 $\alpha_i\ge 0$，并构造拉格朗日函数

\mathcal L(w,b,\alpha)=\frac{1}{2}\|w\|_2^2-\sum_{i=1}^n \alpha_i\big(y_i(w^\top x_i+b)-1\big).

这里 $\alpha=(\alpha_1,\dots,\alpha_n)^\top$ 表示乘子向量。对原始变量 $w$ 与 $b$ 分别求偏导并令其为零，可得

\frac{\partial \mathcal L}{\partial w}=w-\sum_{i=1}^n \alpha_i y_i x_i=0,

因此

w=\sum_{i=1}^n \alpha_i y_i x_i.

这意味着最优法向量 $w$ 并不是任意方向，而是训练样本的线性组合。再对 $b$ 求偏导，得到

\frac{\partial \mathcal L}{\partial b}=-\sum_{i=1}^n \alpha_i y_i=0,

即

\sum_{i=1}^n \alpha_i y_i=0.

把这些关系代回拉格朗日函数，可得到对偶优化问题

\max_{\alpha}\sum_{i=1}^n \alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n \alpha_i\alpha_j y_i y_j x_i^\top x_j

并满足约束

\alpha_i\ge 0,\qquad \sum_{i=1}^n \alpha_i y_i=0.

这个对偶形式非常重要，因为它揭示了一个决定性的事实：优化问题中出现训练样本的方式，只通过内积 $x_i^\top x_j$ 进入。也就是说，若我们能把普通内积替换成某种“更复杂空间里的内积”，就可能在不显式构造高维特征的前提下，实现非线性分类。

2.4 支持向量为什么“支持”了分类边界

根据 Karush-Kuhn-Tucker 条件，最优解还满足

\alpha_i\big(y_i(w^\top x_i+b)-1\big)=0.

这个式子的含义是：若某个样本的乘子 $\alpha_i>0$，那么它必然满足

y_i(w^\top x_i+b)=1.

这类样本恰好落在间隔边界上，被称为支持向量。反过来说，若样本离边界足够远，则往往有 $\alpha_i=0$，它不会直接影响最终分类器。

因此，分类函数

f(x)=\mathrm{sign}\Big(\sum_{i=1}^n \alpha_i y_i x_i^\top x+b\Big)

实际上只依赖那些 $\alpha_i>0$ 的样本点。支持向量机这一名称，也正来自这里：不是所有训练样本都同等重要，真正“支撑”决策边界的是少数边界附近的关键样本。

2.5 核函数与隐式特征映射

第7章已经说明，若我们有特征映射 $\phi(x)$，则可以在特征空间中做线性学习。现在观察对偶问题中的内积项 $x_i^\top x_j$，就会自然想到：若在高维特征空间中做同样的事，这个位置会变成

\phi(x_i)^\top\phi(x_j).

于是，引入核函数

K(x,x')=\phi(x)^\top\phi(x').

这里 $x$ 与 $x'$ 表示两个输入，$K(x,x')$ 表示它们在某个特征空间中的内积。核函数最重要的意义在于：我们不必显式写出 $\phi(x)$ 的每一个分量，只要能够直接计算 $K(x,x')$，就等于已经间接利用了那个特征空间。

将对偶问题中的内积替换为核函数后，核支持向量机的对偶问题写成

\max_{\alpha}\sum_{i=1}^n \alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n \alpha_i\alpha_j y_i y_j K(x_i,x_j)

并满足相同约束

\alpha_i\ge 0,\qquad \sum_{i=1}^n \alpha_i y_i=0.

对应的判别函数则变为

f(x)=\mathrm{sign}\Big(\sum_{i=1}^n \alpha_i y_i K(x_i,x)+b\Big).

这里最重要的变化，是分类器不再通过显式特征向量 $\phi(x)$ 进行计算，而是只通过样本与样本之间、样本与新输入之间的核函数值进行计算。核技巧的核心就在于此。

2.6 常见核函数

最经典的核函数之一是多项式核：

K(x,x')=(x^\top x'+c)^p.

这里 $c\ge 0$ 是常数偏移项，$p$ 是多项式阶数。它对应于某种包含多项式交叉项的高维特征映射，因此可以把原始空间中的线性分类器推广为多项式边界分类器。

另一类更重要的核函数是高斯核，也称径向基函数核：

K(x,x')=\exp\Big(-\frac{\|x-x'\|_2^2}{2\sigma^2}\Big).

这里 $\exp(\cdot)$ 表示指数函数，$\|x-x'\|_2^2$ 表示两个输入之间的平方欧氏距离，$\sigma>0$ 表示带宽参数。高斯核的直觉是：距离越近的样本，相似度越高；距离越远，相似度越低。它对应一个无限维特征空间，却仍然可以通过上式直接计算。

因此，核方法提供了一个极其漂亮的数学机制：先通过核函数隐式定义高维相似性，再在线性可分析的对偶框架中完成学习。

2.7 软间隔支持向量机

现实数据往往并非严格线性可分，即使进入核空间后也可能存在噪声、异常点和类别重叠。于是，硬间隔模型必须被放宽。为此，引入松弛变量 $\xi_i\ge 0$，并写出软间隔支持向量机的原始问题

\min_{w,b,\xi}\frac{1}{2}\|w\|_2^2+C\sum_{i=1}^n \xi_i

满足约束

y_i(w^\top x_i+b)\ge 1-\xi_i,\qquad \xi_i\ge 0,\qquad i=1,2,\dots,n.

这里 $\xi_i$ 表示第 $i$ 个样本对间隔约束的违反程度，$C>0$ 表示惩罚参数。这个目标函数有非常明确的双重含义：第一项控制间隔并抑制模型复杂度，第二项惩罚分类错误与间隔违例。

若 $C$ 取值很大，模型会更强调训练集上的分类正确性；若 $C$ 取值较小，模型则更强调间隔与平滑性。于是，$C$ 就成为“拟合训练数据”与“控制模型复杂度”之间的平衡旋钮。

2.8 核方法与统计学习理论的关系

支持向量机之所以在统计学习路线中占据高峰地位，还因为它并非单纯工程技巧，而是与第一编第6章的理论直接呼应。最大间隔思想对应复杂度控制；对偶问题中的约束结构对应可分析优化；惩罚参数 $C$ 对应经验风险与复杂度之间的权衡；核函数则把非线性表示能力引入这一理论框架之中。

从这个角度看，支持向量机不是“在线性模型之外胡乱增加复杂度”，而是在一个有明确理论支撑的框架中，用最优间隔与核映射来提升表达能力。这也正是它在深度学习兴起前长期被视为高性能标准方法的原因。

3. 代表模型或算法

3.1 线性支持向量机

线性支持向量机直接在原始输入空间中寻找最大间隔超平面。其模型结构由判别函数

f(x)=\mathrm{sign}(w^\top x+b)

给出，其中 $w$ 与 $b$ 通过最大间隔优化问题确定。训练方式上，若数据近似线性可分，则可采用硬间隔或软间隔优化；推理方式上，对新样本只需计算 $w^\top x+b$ 的符号即可。

它特别适合高维但近似线性可分的任务，例如某些文本分类问题。其优势在于优化结构清晰、理论解释明确，并且比一般线性分类器更强调边界稳定性。在线性版本中，支持向量机已经完整体现了“间隔最大化 + 复杂度控制”的核心思想。

3.2 核支持向量机

核支持向量机是在支持向量机的对偶问题中把普通内积替换为核函数，从而实现隐式非线性分类。它继承了最大间隔的统计学习背景，又通过核技巧避免了显式高维特征构造，是本章最核心的代表方法。

若写成判别函数形式，则核支持向量机为

f(x)=\mathrm{sign}\Big(\sum_{i=1}^n \alpha_i y_i K(x_i,x)+b\Big).

这里 $\alpha_i$ 是对偶变量，$K(x_i,x)$ 是训练样本与新样本之间的核函数值。训练阶段的核心任务，是求解关于 $\alpha$ 的对偶优化问题；推理阶段的核心任务，则是把新样本与支持向量进行核函数比较，再将这些相似性按权重组合。

它在本章中的典型性在于：这是核技巧最完整的落地模型。高维特征空间并没有被显式写出，但非线性判别边界已经通过核函数被间接实现。

3.3 常见核函数家族

多项式核与高斯核最具代表性。前者适合描述有限阶非线性交互，后者则更强调局部相似性与平滑边界。不同核函数实际上对应不同的相似性观与不同特征空间几何结构，因此核选择并不是简单调参，而是在选择一种关于数据结构的数学假设。

若从训练流程看，核函数家族本身并不是单独的分类器，而是“定义相似性结构”的部件。训练时，它决定对偶问题中的核矩阵

K_{ij}=K(x_i,x_j),

从而决定分类边界的几何形状；推理时，它决定新样本如何与支持向量发生作用。因此，多项式核与高斯核之所以值得单列，不只是因为它们常用，更因为它们分别代表了两种不同的非线性建模观：一种偏向全局代数交互，一种偏向局部几何邻近。

4. 典型应用

4.1 文本分类

文本分类往往具有“维数很高、样本相对有限、边界可能接近线性但又存在局部非线性”的特点。若把文档表示为向量 $x$，线性支持向量机对应的判别函数为

f(x)=\mathrm{sign}(w^\top x+b).

在这个应用里，本章的最大间隔思想对应的是“选择更稳定的分类边界”，而不是单纯把训练误差压低。若进一步使用多项式核

K(x,x')=(x^\top x'+c)^p,

则模型就等于在隐式特征空间中考虑词语之间的交互结构。也就是说，文本分类中的核 SVM 并不是神秘黑箱，而是把“文档之间的相似性”通过核函数转写为高维表示中的内积，再利用支持向量来决定分类边界。

4.2 小样本分类

在许多样本数量有限、但边界要求较精细的任务中，核支持向量机表现突出。数学上原因在于：分类器最终只由少量支持向量决定，且最大间隔原则对小样本场景中的过拟合有一定抑制作用。

例如，当使用高斯核时，

f(x)=\mathrm{sign}\Big(\sum_{i=1}^n \alpha_i y_i \exp\Big(-\frac{\|x_i-x\|_2^2}{2\sigma^2}\Big)+b\Big),

这里每个支持向量 $x_i$ 对新样本 $x$ 的影响，都会随距离衰减。于是，应用中的分类决策可被理解为：由若干关键训练样本在输入空间中“局部投票”，而投票强度由核相似度控制。这正是本章核函数数学结构在实际任务中的直接体现。

4.3 生物信息分析

生物信息数据常具有高维、小样本、结构复杂的特点，例如基因表达谱分类、蛋白质功能预测等。此时，直接显式构造复杂特征往往既昂贵又脆弱，而核方法允许研究者把先验相似性写成核函数 $K(x,x')$，再交给支持向量机完成判别。

在这类应用中，本章的数学内容对应关系非常清楚：核函数负责定义“两个生物样本在某种结构意义下有多相似”，对偶优化负责选择支持向量与权重系数 $\alpha_i$，最大间隔原则则负责让分类边界在有限样本下更稳健。也就是说，应用问题被直接翻译成了“相似性设计 + 间隔优化”的组合数学问题。

4.4 图像识别的早期任务

在深度学习普及之前，许多图像识别任务采用“手工特征 + SVM”的经典流水线。设图像经过人工设计的描述子映射为特征向量 $x$，则线性或核支持向量机可以在这些特征之上建立分类器。

这个应用清楚体现了第7章与本章之间的连接：第7章负责构造表示，本章负责在这些表示上以最大间隔方式完成判别。若进一步加入核函数，则又相当于在手工特征之上再次引入隐式高维相似性。因此，早期视觉任务的成功，正是“特征工程 + 核 SVM”这条历史路线的集中体现。

5. 局限性与历史转折

核方法与支持向量机代表了统计学习路线的一个高峰。它们把非线性表示能力、间隔理论、对偶优化和核函数机制组织成了一个极其优美的整体。从数学上看，这条路线几乎具备了机器学习研究者所追求的一切品质：几何解释清晰、优化结构规范、泛化思想明确、非线性能力显著增强。

但它仍然存在明显局限。首先，核方法在大规模数据上训练代价高昂，因为核矩阵的规模通常与样本数 $n$ 的平方相关。样本一旦增多，存储与求解都很快变得沉重。

其次，核方法虽然能在高维特征空间中表达复杂边界，但它并不会自动学习层次表示。核函数通常仍然需要研究者预先指定，这意味着“什么样的相似性是重要的”在很大程度上仍然由人来决定，而不是由模型端到端学出。

再次，随着任务从结构化分类走向视觉、语音和自然语言中的大规模复杂模式识别，仅靠固定核函数与支持向量机制越来越难以捕获深层语义结构。换言之，核方法在“优雅地使用高维表示”上极其成功，却在“自动学习多层表示”上能力有限。

因此，历史接下来的转折有两条线并行展开。一条是本编下一章所代表的无监督学习与数据表示问题：既然表示如此关键，那么能否让模型在没有标签时也主动发现结构？另一条则更长远地通向神经网络与深度学习：既然固定核函数仍然不够灵活，那么是否存在能自动学习层次表示的模型族？

本章小结

本章讨论了核方法与支持向量机如何在保持线性学习理论框架的同时，实现强大的非线性判别能力。核心思路可以概括为三步：先通过最大间隔原则把分类问题写成优化问题，再通过对偶推导把训练过程改写成只依赖样本内积的形式，最后用核函数 $K(x,x')=\phi(x)^\top\phi(x')$ 把这一形式推广到隐式高维特征空间。

由此，机器学习在不显式构造高维特征的前提下，获得了显著增强的非线性表达能力。这使核方法成为统计学习路线的代表高峰，也使支持向量机长期成为高性能分类标准方法。

但本章也说明，这一路线仍然无法彻底解决表示学习问题。它提高了判别能力，却没有真正学会如何自动构造层次表示。正因为如此，机器学习的历史继续前进，开始更认真地研究“数据本身的结构如何被发现”，这也自然引出了下一章的无监督学习与数据表示。

关键公式

y_i(w^\top x_i+b)\ge 1.

\min_{w,b}\frac{1}{2}\|w\|_2^2.

w=\sum_{i=1}^n \alpha_i y_i x_i.

K(x,x')=\phi(x)^\top\phi(x').

f(x)=\mathrm{sign}\Big(\sum_{i=1}^n \alpha_i y_i K(x_i,x)+b\Big).

\min_{w,b,\xi}\frac{1}{2}\|w\|_2^2+C\sum_{i=1}^n \xi_i.

关键概念

支持向量机
最大间隔
对偶问题
核技巧
软间隔

第8章 核方法与支持向量机