字体大小
第三编 神经网络与深度学习的兴起 · 03_第三编_神经网络与深度学习的兴起/section.md

第三编 神经网络与深度学习的兴起

本编在全书中的位置

这一编讨论的是人工智能发展史上的第三个关键转折点:当第二编已经把“表示问题”正式提到机器学习的中心位置之后,研究者开始进一步意识到,若表示始终依赖人工设计的特征映射、固定核函数或较浅层的无监督结构发现,那么机器学习仍然难以真正适应高维复杂世界。若说第一编确立了机器学习的数学起点,第二编提出了非线性表达与表示问题,那么第三编所处理的,正是人工智能从“表示问题被提出”走向“表示本身可以被深层模型系统学习”的决定性阶段。

在第二编中,机器学习已经学会了通过基函数、核方法与无监督结构发现来增强表达能力,也已经清楚看到:原始输入空间中的线性关系远远不足,表示质量本身会直接决定学习效果。然而,这些方法仍然存在明显边界。显式特征工程依赖人工经验,核方法虽然优雅却难以在更大规模问题上继续扩展,早期无监督学习也更多停留在低层结构发现,而难以形成高度层次化的抽象表示。换言之,到这一阶段为止,人工智能已经知道“表示很重要”,却还没有真正掌握“如何让机器自己学出复杂表示”的统一机制。

因此,第三编的任务不再只是继续增强非线性能力,而是要回答三个更关键的问题:第一,神经网络为什么会被重新认真看待,它早期的数学原型究竟有什么力量,又为什么曾经失败;第二,多层网络如何通过反向传播真正变得可训练,而深度学习的复兴又为何要等待训练技术、算力与数据条件共同成熟;第三,当神经网络不再只是做最终判别,而能够逐层学习中间表示时,机器学习的理论视角会发生怎样的变化。正是在这些问题上,人工智能开始从早期机器学习进入现代深度学习时代。

本编的总体主线

这一编按照“从早期神经元模型到多层训练、从可训练性到大规模成功、再从具体视觉突破回到深度表示理论”的顺序展开。

首先,本编会回到神经网络的早期历史,说明为什么形式神经元和感知机会在最初被视为一种不同于传统线性模型的新方向。这里的关键不只是历史回顾,而是要把这一阶段写成清楚的数学问题:阈值单元的结构是什么,感知机如何更新参数,单层线性可分边界为什么会构成表达能力的根本限制,XOR 又为何成为一次决定性打击。

其次,本编会进入多层网络与反向传播。单层结构的失败并不意味着神经网络思想本身错误,相反,它直接推动研究者转向多层复合函数结构。问题在于,多层结构虽然更强,却带来了梯度如何系统计算的新困难。反向传播正是在这一点上完成了关键突破:它使神经网络第一次不只是“理论上更强”,而是“原则上可训练”。但本编也会进一步说明,仅有这一点仍然不够。真正让深度学习重新崛起的,不只是反向传播,还包括随机梯度下降、初始化、ReLU、归一化与正则化等一整套让训练真正可扩展的机制。

再次,本编会把这些训练条件与具体结构结合起来,说明为什么卷积神经网络会在视觉任务中率先带来历史性突破。这里的主线是:当深层模型终于能大规模训练时,若再把图像的局部空间结构、平移规律和层次模式直接写进网络结构,就会形成比普通全连接网络更有效的表示学习系统。卷积网络因此不只是一个成功模型,更是“结构先验与深度表示学习结合”的第一个典型范式。

最后,本编会以深度表示学习的理论视角收束。前几章已经展示了神经网络如何从失败中复兴、如何在视觉中成功,但更深的问题是:为什么深层表示会如此有效?深度与宽度有何本质区别?过参数化、损失景观与泛化又为何需要新的理论语言?这一编的结尾将把这些问题统一到“表示学习”这一更高层视角中,并为后续序列建模、生成学习、预训练模型与大语言模型奠定理论主线。

因此,第三编的真正主线并不是“神经网络技术史”的平面罗列,而是一条更深的思想演进链:人工智能先发现浅层表示不足,接着找到多层可训练机制,再进一步学会把训练条件、结构先验与表示学习统一起来。后续序列模型、生成模型、预训练语言模型和大语言模型之所以能够出现,正是因为这一编已经把“深层表示可被学习”确立为现代 AI 的核心事实。

本编各章内容概览

第10章 神经网络的早期模型与第一次低潮

这一章是第三编的历史起点。它说明神经网络为何曾被看作一种有希望突破线性统计模型限制的新路线,也说明它为何很快因单层结构的表达边界而陷入第一次低潮。内容包括形式神经元、McCulloch-Pitts 模型、感知机、误分类驱动的更新规则、线性判别边界以及 XOR 问题所揭示的结构性失败。它的作用,是把神经网络的早期希望与早期挫折都写成明确的数学问题。

第11章 多层神经网络与反向传播

这一章回答第三编最关键的技术问题:当单层结构失败后,多层网络如何才能真正被训练。内容包括多层网络作为复合函数的形式化表达、非线性激活函数的必要性、链式法则、误差项、反向传播递推、参数梯度恢复以及通用逼近定理的意义。它标志着神经网络第一次从“表达上可能更强”走向“训练上原则可行”。

第12章 深度学习复兴的条件

这一章进一步说明,反向传播虽然解决了可训练性问题,但深度学习的真正复兴还依赖更完整的训练条件。内容包括 mini-batch SGD、参数初始化、ReLU、Batch Normalization、Dropout 以及这些机制如何共同改善优化稳定性、梯度传播与泛化行为。它在本编中的地位非常关键,因为它解释了为什么深度学习并不是在反向传播提出后立刻成功,而是要等到更晚时期才真正压倒传统方法。

第13章 卷积神经网络与视觉学习

这一章说明,当深层训练条件已经成熟后,为什么视觉任务会率先发生质变。内容包括卷积运算、局部感受野、参数共享、平移等变性、池化、多通道特征图与层级特征提取,并通过 LeNet、AlexNet 与典型视觉任务说明结构先验和深层学习结合所产生的力量。它标志着深度学习从“可训练”进一步走向“在现实任务中形成压倒性突破”。

第14章 深度表示学习的理论视角

这一章是第三编的理论收束。它不再引入新的主导模型,而是从更高层视角回答:为什么深层网络学到的不只是复杂拟合,而是层次表示;深度与宽度有何差异;表示空间如何被逐层重塑;过参数化、损失景观与泛化为何需要新的理论语言;以及中间表示为什么能够跨任务复用。它的核心作用,是把第三编统一提升为“深度表示学习”这一理论主题,并为后续序列与生成模型的发展铺路。

本编的意义

从全书的历史演进看,第三编对应的是人工智能从“表示问题已经被提出”走向“深层表示学习成为现实”的阶段。第二编的核心张力在于:机器学习已经知道表示决定能力,却仍然缺少一种能大规模、系统地学习表示的统一机制;而第三编所做的,正是把这一机制建立起来。

没有这一编,后面的卷积网络、生成模型、预训练语言模型与大语言模型就会像若干彼此分散的技术浪潮;但若把第三编放回整条思想史中,就会看到它完成了一个决定性的统一:表示不再只是人工提供的输入条件,而成为神经网络内部逐层形成、可训练、可复用、可迁移的核心对象。也正因为如此,后续所有重大进展,无论是视觉突破、序列建模、生成学习还是自监督预训练,都可以被理解为深层表示学习在不同问题上的继续展开。

因此,第三编的核心意义在于:它把神经网络从早期失败的实验路线,转化为现代人工智能的主导框架;更重要的是,它把“深度表示学习”确立为连接后续 Transformer、大语言模型与智能体系统的一条中心主线。