第三编神经网络与深度学习的兴起 · 03_第三编_神经网络与深度学习的兴起/第14章_深度表示学习的理论视角/chapter.md

第14章深度表示学习的理论视角

本章核心问题

深层网络为什么不仅仅是在做更大规模的函数拟合，而是在学习一种比传统特征工程更强的多层表示结构？

更具体地说，本章要回答：为什么“深度”本身会改变可表达函数的组织方式；深层表示怎样把原始输入逐步变换为更适合任务的坐标系统；过参数化、损失景观与泛化现象为何使传统统计学习直觉需要被重新理解；以及为什么“表示学习”会成为从视觉到语言模型再到大语言模型的一条统一主线。

1. 问题背景

到第13章为止，第三编已经完成了一个清晰的历史推进。第10章解释了早期神经网络为何曾被寄予厚望，又为何因单层结构的表达边界而陷入低潮；第11章说明，多层网络通过反向传播首次获得了系统训练机制；第12章进一步解释，只有当随机梯度下降、初始化、ReLU、归一化与正则化等条件共同成熟时，深层模型才真正具备现实可训练性；第13章则展示了，当结构先验与深层训练能力结合时，卷积神经网络为何会在视觉任务中首先取得决定性突破。

但这些成功立刻引出一个更深的问题：神经网络到底为什么有效？若只是从工程表面描述，我们可以说“网络更深、参数更多、数据更大、训练更稳定”；然而，这些描述仍不足以回答最本质的问题。为什么深层网络学出的中间表示常常比人工特征更有用？为什么多层组合会在许多任务上优于单层或浅层方法？为什么深度学习似乎不只是换了一种参数化形式，而是在特征构造、函数逼近与泛化方式上都改变了机器学习的基本图景？

这正是“深度表示学习”这一概念出现的背景。早期机器学习常把特征视为由人预先设计好的输入描述，再由模型在这些固定特征上做拟合；而深度学习越来越清楚地表明，模型不仅可以学判别边界，也可以学特征本身。换言之，学习的对象不再只是输入到输出的最后映射，而是输入在每一层被如何重新编码、重新展开和重新组织。

因此，本章不再引入一个新的网络结构，而是要对前面几章已经出现的事实做理论层面的收束。它要回答的是：卷积网络、深层前馈网络乃至后面将出现的序列模型与预训练模型，为何都可以被统一理解为“表示学习系统”；以及在这种视角下，深度、过参数化和泛化为何成为新的核心理论问题。

从全书位置看，这一章是第三编的总结章。它一方面回看第10章至第13章已经建立的结构、训练和应用主线，另一方面也为第四编序列建模与生成学习的发展做准备。因为一旦“表示学习”成为中心问题，后面的序列模型、生成模型、预训练模型和大语言模型，就不再只是彼此分散的技术，而会被理解为同一条表示演化链上的不同阶段。

2. 数学原理

2.1 从输入空间到表示空间

在传统监督学习中，我们通常直接考虑一个从输入到输出的映射

f:\mathcal X\to \mathcal Y,

其中 $\mathcal X$ 表示输入空间，$\mathcal Y$ 表示输出空间，$f$ 表示学习目标函数。若输入特征已经由人设计好，那么学习的主要任务就是在给定特征表示上拟合合适的决策规则。

而在深度学习中，更自然的写法往往不是直接看最终映射，而是把它分解为多层表示变换的复合：

f_\theta(x)=h^{(L)}\circ h^{(L-1)}\circ \cdots \circ h^{(1)}(x),

其中 $x\in\mathcal X$ 是输入样本，$h^{(\ell)}$ 表示第 $\ell$ 层的表示变换，$L$ 表示层数，$\theta$ 表示全部参数。若进一步记

z^{(0)}=x,

以及

z^{(\ell)}=h^{(\ell)}\big(z^{(\ell-1)}\big),\qquad \ell=1,2,\dots,L,

那么 $z^{(\ell)}$ 就表示输入在第 $\ell$ 层形成的中间表示。

这组记号的意义非常重要。它说明深度网络并不是把输入一次性映射到输出，而是在中间不断改变数据的表示方式。也就是说，网络学习的不只是最终分类器或回归器，更是在学习一系列逐层演化的表示空间。第13章中的卷积特征图就是这一思想的直观例子：原始像素在低层被变成边缘和纹理表示，在更高层又被重组为部件和对象级模式。

因此，所谓表示学习，首先就是把“如何从原始输入构造有用特征”这件事，从人工设计转移为模型内部的参数化学习过程。

2.2 层次组合为何会改变表达能力

深度网络的核心结构是复合。若把单层表示写成

z^{(1)}=\sigma(W^{(1)}x+b^{(1)}),

其中 $W^{(1)}$ 表示权重矩阵，$b^{(1)}$ 表示偏置向量，$\sigma(\cdot)$ 表示非线性激活函数，那么两层网络可以写成

z^{(2)}=\sigma\big(W^{(2)}z^{(1)}+b^{(2)}\big).

继续迭代下去，就得到多层复合表示。第11章已经说明，若没有非线性，层层复合最终仍会塌缩为单层线性映射；因此，真正关键的是“非线性复合”。

为什么这种复合会改变表达能力？因为它允许模型用前一层产生的中间特征，作为后一层的基本构件。换言之，深层网络不是直接在原始输入上刻画复杂函数，而是在逐层构造更抽象的基元，再用这些基元去表达更高层结构。

这与浅层模型的区别，不仅是“多几层参数”而已，而是函数组织方式的变化。浅层模型往往需要在单一层里直接表示复杂决策边界；深层模型则可以把复杂映射分解成多个相对简单的步骤，每一步只负责某种局部变换或局部抽象。因此，深度带来的不只是容量增加，更是表示结构的层次化。

2.3 深度与宽度为何不是同一回事

从函数逼近角度看，浅层网络在理论上也可以逼近很广泛的函数。第11章提到的通用逼近定理已经说明，单隐藏层网络只要宽度足够大，就可以逼近紧集上的任意连续函数。于是，一个自然问题是：既然浅层网络也有普适逼近能力，为什么深度仍然如此重要？

关键在于，“能够表示”与“是否高效表示”是两回事。设一类函数可由某个深层网络表示为

f(x)=h^{(L)}\circ \cdots \circ h^{(1)}(x),

若强行用浅层网络来模拟这种层次复合，它往往需要显著更多的隐藏单元。也就是说，深层结构可能通过较少的参数或较紧凑的中间表示，实现某些浅层网络只能通过极大宽度才勉强实现的映射。

从直观上看，这是因为深层网络能够复用中间子结构。若某个复杂模式本身由若干局部子模式组成，深层网络可以先学局部子模式，再在更高层反复调用它们；而浅层网络则往往必须在同一层中把这些组合关系一次性展开。于是，深度对应的是“组合复用”，宽度更多对应的是“并排堆叠”。二者都能提升表达能力，但它们提升的方式并不相同。

因此，表示学习中的“深度”不能简单被理解成“比浅层有更多参数”，而应被理解成“允许多层中间表示反复组合”的结构自由度。

2.4 表示空间变换的数学意义

深层表示学习的另一个核心思想，是网络在逐层改变数据所在的几何坐标系。设原始输入为 $x$，经过第 $\ell$ 层得到表示 $z^{(\ell)}$。若某个任务在原始空间中很难分离，但在更高层表示空间中变得更规则，那么最后的判别器就会容易得多。

从这一视角看，深层网络常常在做如下事情：

x \mapsto z^{(1)} \mapsto z^{(2)} \mapsto \cdots \mapsto z^{(L)},

其中每一步都在重新组织样本间的相对关系。某些原本欧氏距离很近但语义不同的样本，可能在高层表示中被拉开；某些原本在像素空间差异很大但语义相同的样本，可能在高层表示中被拉近。也就是说，表示学习不是简单压缩数据，而是在任务相关的方向上重塑几何结构。

这也是为什么深度表示常被称为“更有语义”的表示。这里的“语义”并不是神秘术语，而是指：高层表示更接近任务需要区分的结构，而较少受原始表面形式扰动影响。卷积网络中的高层视觉特征正是如此，它们比原始像素更接近对象部件和对象类别的组织方式。

因此，深度学习中的表示变换，可以被理解为一种可学习的坐标变换：它把原本难以处理的问题，逐步变成在新坐标系下更容易处理的问题。

2.5 过参数化为何没有立刻导致训练失败

传统统计学习理论通常提醒我们：参数越多、模型越复杂，过拟合风险越大。然而深度学习的一个突出事实是，现代网络往往具有极大量参数，甚至参数量远超训练样本数，却仍能在实践中获得良好泛化。这个现象使“过参数化”成为理解深度表示学习时必须面对的问题。

设网络参数为

\theta\in\mathbb R^p,

其中 $p$ 表示参数总数。训练目标仍可写成

J(\theta)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f_\theta(x_i)\big).

若从传统直觉出发，$p$ 很大似乎会让函数类复杂度急剧上升，从而带来严重泛化问题。但深度学习中的经验却表明，事情没有这么简单。一个重要原因是：虽然参数空间维数很高，但训练过程并不会任意遍历整个参数空间，而是受到初始化、优化算法、网络结构和数据分布的共同限制。换言之，真正被训练过程访问到的函数子集，可能远小于“所有参数都自由变化时的理论容量”。

这说明，参数个数并不是理解深度泛化的唯一变量。过参数化一方面使模型有足够自由度去找到训练误差很小的解，另一方面又可能通过优化动力学和表示结构，偏向某些更平滑、更可推广的解。这也就是为什么后来的理论研究越来越重视“隐式正则化”“优化偏置”和“函数复杂度的有效刻画”，而不再只盯着参数数量本身。

2.6 损失景观与优化可达性

深度网络训练的目标通常是非凸的。也就是说，损失函数

J(\theta)

关于参数 $\theta$ 的曲面一般不会是简单的碗状结构，而会包含大量鞍点、平坦区域和多个局部极值。按传统优化直觉，这样的目标似乎会让训练极其困难。然而实践上，大规模网络往往仍能通过 SGD 一类方法找到表现良好的解。这就使“损失景观”成为理解深度表示学习的重要理论对象。

设梯度为

\nabla_\theta J(\theta),

Hessian 矩阵为

H(\theta)=\nabla_\theta^2 J(\theta),

其中 Hessian 的特征值反映损失曲面的局部弯曲性质。若某点所有特征值都为正，它是局部极小附近；若既有正特征值又有负特征值，则更可能是鞍点。

深度学习中的一个重要认识是，高维非凸优化中真正普遍的问题未必是“坏的局部极小点特别多”，而可能是“鞍点和平坦区域大量存在”。而随机梯度下降、小批量噪声、过参数化结构和归一化机制，都会影响训练轨迹如何穿过这些区域。因此，第12章讨论的训练机制与本章讨论的表示理论并不是分离的：训练之所以能够学出有用表示，部分原因就在于优化动力学本身会偏向某些可达且表现良好的表示结构。

2.7 泛化为何需要新的讨论方式

第一编第6章已经从统计学习理论角度讨论过泛化问题，当时的核心语言是经验风险、真实风险、模型复杂度和 VC 维。但深度学习的发展说明，这套语言虽然仍然重要，却不足以完全解释现代表示学习现象。原因在于，深度网络中“模型复杂度”不再容易仅用参数量或传统容量指标刻画。

一个抽象的泛化关系仍然可以写成

R(f_\theta)\le \hat R_n(f_\theta)+\mathrm{Complexity}(\theta,\mathcal F,n),

其中 $R(f_\theta)$ 表示真实风险，$\hat R_n(f_\theta)$ 表示经验风险，$\mathrm{Complexity}(\theta,\mathcal F,n)$ 表示某种复杂度项。但问题在于：在深度学习中，这个复杂度项究竟应如何刻画，已经远比浅层模型复杂。

研究者逐渐意识到，深度网络的泛化可能与许多更细致的量相关，例如参数范数、层间 Lipschitz 常数、间隔、训练轨迹、平坦最小值、归一化后的有效容量以及表示本身的结构稳定性。也就是说，深度表示学习迫使我们从“模型有多少参数”转向“模型在训练过程中实际形成了怎样的表示与函数性质”。

因此，本章并不是否定第一编的泛化理论，而是在指出：深度学习的兴起把泛化问题推进到了一个更细致的新阶段。

2.8 表示复用与迁移为何成为深度学习的突出特征

深度表示学习最有力的证据之一，是中间表示往往能够跨任务复用。设一个网络前几层定义表示映射

\phi_\theta:\mathcal X\to \mathcal Z,

其中 $\mathcal Z$ 表示某个中间表示空间。最终任务输出可写成

f_\theta(x)=g\big(\phi_\theta(x)\big),

这里 $\phi_\theta(x)$ 负责把原始输入变成较高层特征，$g(\cdot)$ 则是在该表示空间上完成具体任务的头部映射。

这个分解特别重要，因为它说明表示学习和任务学习在逻辑上可以部分分离。若 $\phi_\theta(x)$ 学得足够好，那么同一表示可能服务于多个不同任务，只需替换或微调上层映射 $g$ 即可。这就是迁移学习、预训练和后面大语言模型中表示复用能力的数学雏形。

因此，深度表示学习不仅改变了单任务学习的效果，也改变了我们对“一个模型学到的知识能否被复用”的理解。后面无论是生成模型、自监督学习还是预训练语言模型，本质上都会不断强化这一方向。

2.9 深度表示学习的统一意义

把前面各节连起来，就可以看出深度表示学习并不是若干局部现象的拼凑，而是一种统一视角。深度通过非线性复合改变函数组织方式；中间表示通过逐层变换重塑数据几何；过参数化与优化动力学共同影响可达解的性质；泛化不再只由静态参数数量决定，而与训练过程形成的表示结构密切相关；中间表示又能够在不同任务之间被复用。

因此，深度学习的真正本质，并不只是“更大的模型”或“更强的算力”，而是“把特征构造本身变成可学习对象”。一旦这样理解，第13章的卷积网络、第17章的生成模型、第20章的预训练语言模型，乃至后面的大语言模型与智能体系统，就都会被看作在不同数据类型和任务形式上继续推进表示学习的不同阶段。

3. 代表模型或算法

3.1 深网络与浅网络的表达比较

这一节的代表性不在于某个具体架构，而在于一种比较框架：固定宽度与参数预算时，深网络和浅网络在表达某些复合结构函数时所需资源并不相同。深网络通过逐层组合中间表示来构造复杂函数，浅网络则往往需要更大宽度去一次性展开这些组合关系。

它在本章中的典型性很强，因为它最直接对应“深度为什么不仅仅是参数更多”这一核心问题。这里真正要强调的，不是深网络对所有函数都绝对更优，而是它在表达层次结构时具有特别自然的组织形式。

3.2 表示空间分析方法

另一类代表性方法，是对中间表示本身做分析，例如观察不同层表示如何分离类别、聚集语义相近样本，或研究表示空间在任务迁移中的稳定性。虽然这类方法不总是形成统一算法，但它们在理论上非常重要，因为它们把“网络学到了什么”从黑箱直觉转化为可讨论的几何对象。

它们在本章中的典型性，在于强调了一个新研究方向：深度学习不应只通过最终精度来理解，还应通过中间表示如何演化来理解。

4. 典型应用

4.1 图像特征抽象

在视觉任务中，深度表示学习最直观的应用就是图像特征抽象。原始像素本身并不直接等于有用语义，但卷积网络可以通过多层表示，把低级边缘和纹理逐步组合成部件和对象级特征。

这对应到本章的数学内容时，关键就是表示链

x \mapsto z^{(1)} \mapsto z^{(2)} \mapsto \cdots \mapsto z^{(L)}.

在这个链条中，前几层主要重构局部几何模式，中高层逐步拉近语义相似图像、拉远语义不同图像。因此，图像特征抽象的成功，本质上对应于“表示空间被逐层重塑，使最终任务在高层空间中更容易分离”。

4.2 语义嵌入

在文本、图像标签或多模态任务中，常常希望把对象映射到某个连续向量空间，使语义相近者在表示空间中彼此接近。设某种嵌入映射为

\phi_\theta(x)\in\mathbb R^d,

其中 $d$ 表示嵌入维数。则语义嵌入应用的关键，不只是得到一个向量，而是让这个向量空间本身承载有用的语义几何结构。

这与本章讨论的表示变换完全一致。深层网络通过逐层复合，把原始离散或高维输入映射成更规则的连续空间表示。这样一来，相似性、聚类性和下游判别边界都可以在新空间中变得更清楚。也就是说，语义嵌入中的成功并不是“向量化”本身，而是“学到了一个任务相关的表示空间”。

4.3 迁移学习中的表示复用

迁移学习之所以成为深度学习时代的重要现象，正是因为中间表示往往具有跨任务价值。一个在大数据上训练得到的表示映射

\phi_\theta:\mathcal X\to \mathcal Z

常常可以在新的任务中继续使用，而不必从原始输入重新学习全部特征。

在这个应用中，本章的数学结构与现实做法对应得非常直接。前层表示相当于把输入投影到一个已学习的高层空间 $\mathcal Z$；新任务只需在该空间上重新学习较小的头部映射 $g$，即

f(x)=g\big(\phi_\theta(x)\big).

因此，迁移学习之所以可行，不是因为“参数可以重复利用”这么简单，而是因为深度网络学到的中间表示已经把原始数据组织成了更可复用的形式。

5. 局限性与历史转折

尽管深度表示学习已经成为理解现代 AI 的核心视角，但它的理论解释仍然远未完成。首先，深度为什么在某些任务上特别有效、在某些任务上却未必占绝对优势，这仍然缺乏完全统一的定理解释。其次，过参数化、优化动力学与泛化之间的关系虽然已有大量研究，但尚未形成一个像传统统计学习理论那样简洁统一的总框架。换言之，我们已经知道深度表示学习很重要，却还没有完全知道它为何以现在这种方式重要。

此外，第三编前几章的大量成功主要集中在视觉任务上。卷积网络之所以有效，是因为图像具有清晰的局部二维结构；但语言、语音和一般序列数据的核心困难不完全相同，它们涉及顺序、记忆、长程依赖和生成过程。也就是说，表示学习虽然是统一主线，但表示应如何在不同数据类型上被组织，还需要新的模型结构来回答。

因此，本章的意义在于完成第三编的理论收束，而不是给出最终解释。它把第三编的核心成果统一为“深度表示学习”这一视角，同时也自然推动全书进入下一阶段：当表示学习从静态视觉对象转向时间展开的序列对象时，神经网络需要怎样的新数学结构？

这正是第四编将要继续讨论的问题。第15章开始，焦点将逐步从空间结构转向时间结构，从卷积式层次表示转向序列依赖、状态递推与生成建模。

6. 本章小结

本章讨论了深度学习为何不应仅被理解为更大规模的函数拟合，而应被理解为一种深层表示学习机制。核心结论是：深度通过非线性复合组织中间表示，逐层重塑数据的几何结构，使复杂任务在高层表示空间中变得更容易处理；而过参数化、优化动力学与泛化现象，又共同说明深度学习的理论问题不能仅靠传统浅层模型直觉来解释。

因此，深度学习在 AI 发展史上的真正意义，不只是性能提升，而是把“特征如何形成”从人工设计转变为模型内部可学习的对象。也正因为如此，表示学习才会成为贯穿后续生成模型、预训练语言模型、大语言模型乃至智能体系统的一条核心主线。

关键公式

f_\theta(x)=h^{(L)}\circ h^{(L-1)}\circ \cdots \circ h^{(1)}(x)

z^{(\ell)}=h^{(\ell)}\big(z^{(\ell-1)}\big)

J(\theta)=\frac{1}{n}\sum_{i=1}^n L\big(y_i,f_\theta(x_i)\big)

R(f_\theta)\le \hat R_n(f_\theta)+\mathrm{Complexity}(\theta,\mathcal F,n)

f_\theta(x)=g\big(\phi_\theta(x)\big)

关键概念

表示学习
层次表示
深度与宽度
表示空间变换
过参数化
损失景观
泛化
表示复用

第14章 深度表示学习的理论视角