第二编 非线性学习与表示问题的提出
本编在全书中的位置
这一编讨论的是人工智能发展史上的第二个关键转折点:当第一编已经把机器学习建立为函数逼近、风险最小化与统计泛化问题之后,研究者很快发现,真正的困难不再只是“如何在有限样本上学得稳定”,还包括“模型究竟有没有足够能力表达真实世界的复杂规律”。若说第一编确立了机器学习的数学起点,那么第二编所处理的,正是机器学习从线性统计建模走向非线性表达与表示问题的起点。
在线性回归、Logistic 回归和统计学习理论的框架中,机器学习已经能够对有限样本、损失函数、风险函数与复杂度控制给出相当清晰的解释。但这些方法的核心形式仍然大体停留在线性模型附近。它们擅长处理结构相对简单、边界较规整或表示已经足够合适的问题;一旦面对弯曲决策边界、组合关系、局部模式、高维复杂结构与缺乏标签的数据,单纯依赖原始输入上的线性关系便开始显得明显不足。
因此,第二编的任务不再是重复说明“如何学习”,而是进一步追问三个更深层的问题:第一,当线性模型表达能力不足时,机器学习如何扩展其函数类;第二,能否用更优雅的数学方式在不显式构造高维特征的前提下获得非线性能力;第三,当标签本身缺失时,机器是否仍能从数据内部自动发现结构并形成表示。正是在这些问题上,人工智能开始真正进入“表示”这一核心主题。
本编的总体主线
这一编按照“从线性表达的边界到非线性建模、从显式特征构造到隐式高维表示、再从有监督判别走向无监督结构发现”的顺序展开。
首先,本编会说明为什么线性模型虽然构成机器学习的自然起点,却不足以支撑更复杂的现实任务。这里的关键不只是经验上的“效果不够好”,而是数学上的函数类限制:若模型只能在原始输入空间中形成超平面或简单线性组合,那么许多真实规律根本无法被纳入可学习的假设空间。因此,第二编将从特征映射、基函数展开和多项式特征开始,说明机器学习如何把非线性问题重新写成“特征空间中的线性问题”。
其次,本编会进一步讨论核方法与支持向量机所代表的更精致路线。既然显式构造高维特征会带来维度膨胀和计算负担,那么能否只利用高维特征空间中的内积,而不把全部特征坐标真正写出?核技巧正是在这一问题上给出了高度优雅的回答。与此同时,最大间隔原则、对偶问题与软间隔机制又使支持向量机与统计学习理论形成了紧密呼应。因此,这一部分不仅增强了非线性表达能力,也把复杂度控制、几何解释与优化结构组织到同一框架中。
再次,本编会把讨论从“如何更强地判别”推进到“如何在没有标签时发现结构”。到这一步,表示问题已经不再只是某种辅助性的特征工程,而成为学习本身的核心主题。无监督学习将从聚类、概率混合模型与潜变量方法、再到主成分分析与降维路线,说明即使缺少外部监督,数据内部仍然可能包含几何、概率与代数意义上的组织方式。
因此,第二编的真正主线并不是若干零散技术的罗列,而是一个持续深化的理论过程:机器学习先发现线性不足,再学会通过特征与核函数扩展表达能力,最后进一步意识到“表示”本身也应成为学习对象。后续神经网络与深度学习之所以会重新兴起,正是因为这一编已经把表示学习问题正式提到了舞台中央。
本编各章内容概览
第7章 从线性模型到非线性建模
这一章是第二编的起点。它承接第一编结尾所留下的问题,说明为什么仅靠原始输入空间中的线性模型不足以描述真实世界中的复杂关系。内容将围绕特征映射、基函数展开、多项式回归、经验风险在特征空间中的延续、最小二乘的基函数推导以及显式手工特征工程展开。它的核心作用,是把机器学习从“线性统计建模”推进到“特征空间中的非线性建模”。
第8章 核方法与支持向量机
这一章进一步回答:若高维特征空间有用,是否可以不显式构造它,却仍然利用其中的非线性表达能力。内容包括线性可分与分类间隔、硬间隔与软间隔支持向量机、拉格朗日对偶、支持向量、核函数、核技巧以及多项式核与高斯核等典型形式。它在本编中的地位非常关键,因为它代表了统计学习路线在非线性判别问题上的高峰,也把“表示提升”与“理论可分析性”结合到了同一框架中。
第9章 无监督学习与数据表示
这一章把第二编推向更深层的表示问题。当前两章仍主要围绕有监督任务中的非线性判别能力展开时,本章转而讨论:在没有标签的情况下,机器如何从数据本身发现结构。内容包括相似性与聚类目标、k-means 的交替优化、高斯混合模型、EM 算法、主成分分析、协方差矩阵、特征值问题以及降维与潜在表示的基本思想。它标志着机器学习开始真正把“数据内部结构”视为学习信号,也直接预示了后续表示学习与预训练范式的发展。
本编的意义
从全书的历史演进看,第二编对应的是人工智能从“统计学习已经建立”走向“表达能力与表示问题被正式提出”的阶段。第一编解决的是机器学习的基础语言、监督学习框架与泛化理论;而第二编所做的,是迫使研究者直面更深一层的问题:模型如何表达复杂规律,表示如何影响学习能力,数据在没有标签时是否仍能提供结构性信号。
没有这一编,后面的神经网络、深度学习、自监督学习、Transformer 与大语言模型就会显得像突然出现的新技术;但若把这一编放回整条思想链中,就会看到后续发展其实都在回应这里已经明确提出的核心张力:显式特征工程不够灵活,核方法虽然优雅却难以扩展,早期无监督学习虽然能发现结构却难以形成高层表示。正是这些未被彻底解决的问题,推动人工智能继续向神经网络与深层表示学习演进。
因此,第二编的核心意义在于:它把“表示”从附属概念提升为人工智能理论演进中的核心主题,也把机器学习从线性统计框架进一步推进到了非线性方法、核技巧与无监督结构发现所共同构成的新阶段。