第四编 序列建模与生成学习的发展
本编在全书中的位置
这一编讨论的是人工智能发展史上的第四个关键转折点:当第三编已经把“深层表示学习”确立为现代 AI 的核心事实之后,研究者很快发现,若模型仍主要围绕静态对象、局部判别与空间结构展开,那么它仍不足以处理语言、语音、行为流和复杂生成任务。若说第三编解决的是“表示能否由深层模型自己学出”,那么第四编所处理的,正是人工智能从静态表示学习走向时间结构建模与生成分布建模的关键阶段。
在第三编中,神经网络已经通过反向传播、深层训练条件和卷积结构先验,证明了自己能够学习强大的层级表示;深度表示学习也由此被提升为统一视角。但这一路线的成功,首先主要集中在视觉任务上,而视觉任务的对象往往可以在某一时刻被整体呈现。语言和时间序列则不同:它们的核心信息不只存在于当前观测本身,还存在于观测之间的先后关系、历史依赖和生成顺序之中。与此同时,机器学习的发展也越来越清楚地意识到,学习不应只停留在“区分数据”,还应进一步进入“生成数据”与“学习分布”的层面。
因此,第四编的任务不再只是继续扩展表示能力,而是要回答三个新的核心问题:第一,当数据具有顺序和上下文依赖时,机器如何建立适合时间结构的模型;第二,神经网络如何把历史压缩为可学习的连续状态,并在时间维度上形成表示;第三,当学习目标不再只是预测标签,而是学习数据本身的分布时,生成模型又如何改变机器学习的理论重心。正是在这些问题上,人工智能开始从“深层表示学习”进一步走向“序列建模与生成学习”的统一阶段。
本编的总体主线
这一编按照“从早期统计序列模型到神经序列模型、再从判别式序列建模走向生成建模”的顺序展开。
首先,本编会说明为什么一旦数据具有顺序结构,静态样本建模就不再足够。这里的关键不是简单说“数据有先后顺序”,而是要把这一点写成明确的概率问题:一个序列的联合分布如何通过条件概率链展开,为什么必须压缩历史信息,以及马尔可夫假设、n-gram 模型和隐马尔可夫模型如何给出早期可估计、可推断的统计框架。也就是说,第四编将从序列建模的最早数学语言开始。
其次,本编会把第三编的神经表示学习思想正式带入序列问题。固定窗口和有限离散状态虽然给出了起点,却难以承载复杂、连续和长程的上下文依赖。循环神经网络正是在这一局限上出现:它试图用共享参数的连续隐状态去压缩历史,再通过时间反向传播进行训练。随后,LSTM 和 GRU 等门控结构进一步说明,若要真正处理长期依赖,仅有递推状态还不够,模型还必须学会如何控制信息的保留、遗忘与输出。
再次,本编会把讨论从“如何利用历史做预测”推进到“如何学习数据分布本身”。这里的核心转折是:机器学习不应只学习判别边界或条件概率,还应进一步学习样本是如何被生成出来的。于是,第四编将从判别建模与生成建模的差异讲起,进入潜变量模型、自编码器、变分自编码器和生成对抗网络,说明表示学习、采样、重构和分布逼近是如何被统一到同一生成框架中的。
因此,第四编的真正主线并不是若干序列模型和生成模型的平行罗列,而是一条持续推进的思想链:机器学习先学会用统计方式表示历史,再学会用神经网络表示历史,最终进一步把“学习历史”和“学习分布”统一到更强的生成式视角中。后续注意力机制、预训练语言模型和大语言模型之所以能够出现,正是因为这一编已经把“顺序依赖”和“生成目标”确立为现代 AI 的核心主题。
本编各章内容概览
第15章 序列模型的早期形式
这一章是第四编的起点。它说明当数据具有顺序和历史依赖时,机器学习为什么不能继续只依赖静态输入模型,也说明早期研究者如何从条件概率链、马尔可夫假设、n-gram 与隐马尔可夫模型出发建立最初的序列建模框架。内容包括联合分布的链式分解、有限历史近似、局部上下文统计、隐藏状态链、状态转移、观测生成与动态规划推断。它的作用,是把“历史依赖”正式写成可分析的数学对象。
第16章 循环神经网络及其改进
这一章把第三编中的神经表示学习思想正式带入序列建模。内容包括连续隐状态递推、时间反向传播、梯度消失与梯度爆炸、简单 RNN 的局限,以及 LSTM、GRU 等门控结构如何通过可学习的信息流控制来缓解长程依赖问题。它在本编中的地位非常关键,因为它标志着序列建模从“局部统计和有限状态”走向“连续可学习时间表示”。
第17章 生成模型的发展脉络
这一章把第四编从“如何预测序列”进一步推进到“如何学习分布并生成数据”。内容包括判别建模与生成建模的区别、潜变量模型、自编码器、VAE 的 ELBO、重参数化技巧、GAN 的对抗目标以及生成模型在图像生成、数据重建、风格迁移和表示学习中的作用。它标志着机器学习开始把“学习世界如何产生数据”正式作为核心目标之一,也为后续语言生成和大模型时代奠定背景。
本编的意义
从全书的历史演进看,第四编对应的是人工智能从“深层表示学习已经建立”走向“时间依赖与生成目标成为核心问题”的阶段。第三编解决的是神经网络如何学习强大表示;而第四编所做的,是把这一能力进一步推进到两个更复杂的方向:其一,表示必须随着顺序和时间展开;其二,学习目标必须从判别延伸到分布生成。
没有这一编,后面的注意力机制、Transformer、预训练语言模型与大语言模型就会显得像突然冒出的新架构和新范式;但若把这一编放回整条思想史中,就会看到它完成了一个关键过渡:机器学习不再只是在静态输入上学判别边界,而开始学习如何表示历史、如何压缩上下文、如何用潜变量解释观测,以及如何从分布中生成样本。正是这些问题的集中展开,才把人工智能进一步推向语言生成、预训练和大规模生成模型时代。
因此,第四编的核心意义在于:它把“序列”与“生成”正式确立为现代 AI 的两条关键数学主线,也把后续语言模型、大语言模型和更一般生成式智能系统的思想起点清楚地铺设出来。