第一编 机器学习的数学起点
本编在全书中的位置
这一编讨论的是人工智能发展史上一个最根本的转折点:机器不再主要依赖人工编写的规则系统,而开始被理解为一种能够从样本中学习规律的数学建模装置。若说后续各编将分别进入非线性建模、神经网络、序列学习、Transformer、大语言模型、强化学习与智能体系统,那么这一编所处理的,正是这一整条发展链条的出发点。
在人工智能的早期阶段,研究者往往希望通过显式规则、逻辑推理和专家知识来构造智能系统。但随着问题从封闭环境走向真实世界,这一路线逐渐暴露出局限:现实数据充满噪声、不确定性与高维复杂结构,单靠手工规则难以覆盖。由此,人工智能的核心开始转向“学习”本身。也正是在这一历史节点上,机器学习不再只是若干技术的集合,而成为函数逼近、概率建模、最优化与统计推断交汇而成的理论对象。
因此,第一编的任务不是直接进入复杂模型,而是先回答三个更基础的问题:第一,什么叫作从数据中学习;第二,学习问题依赖哪些共同的数学语言;第三,为什么有限样本上的训练有可能通向未知样本上的有效泛化。只有这些问题被建立起来,后续从线性模型到深度学习、从语言模型到智能体系统的演进,才会获得统一的理论坐标。
本编的总体主线
这一编按照“从学习概念到学习框架、从学习框架到具体模型、再从具体模型回到泛化理论”的顺序展开。
首先,本编会说明人工智能中的“学习”为何能够被严格写成数学问题。这里的关键不是把学习看成模糊能力,而是把它表述为:在某个函数类中,用有限样本去逼近未知规律,并通过损失函数、风险函数和参数优化来定义“学得更好”究竟是什么意思。
其次,本编会整理机器学习所依赖的共同数学语言。线性代数负责表示数据与参数,概率论负责刻画噪声与不确定性,微积分与最优化负责定义训练过程,信息论负责比较分布与构造概率模型中的核心损失。后续几乎所有方法都会反复调用这些对象。
再次,本编会把这些工具组织为监督学习这一正式范式。监督学习并不是简单地让训练误差下降,而是第一次把样本、标签、经验风险、训练误差、测试误差、模型复杂度与泛化问题系统地放到同一框架中。
在此基础上,本编再进入最早成熟的具体模型。连续预测问题首先导向线性回归与最小二乘方法,离散判别问题则进一步导向感知机、Logistic 回归与 softmax 等概率判别模型。它们共同构成机器学习最早的一批标准模型。
最后,本编以统计学习理论收束。这里要回答的问题不是“如何继续拟合”,而是“为什么能够学会”。经验风险为什么可能代表真实风险,模型复杂度为什么必须被控制,VC 维、结构风险最小化与正则化又如何成为理解泛化的理论支柱,这些都将在本编结尾得到系统说明。
本编各章内容概览
第1章 人工智能学习与数学建模
这一章给出整本书的第一个起点:什么是人工智能中的“学习”,以及为什么它能够被转化为严格的数学问题。章节会从规则系统的局限讲起,把学习表述为函数逼近、条件概率估计与风险最小化问题,并说明建模、估计与优化为什么会成为现代 AI 的统一语言。
第2章 机器学习的数学基础
这一章整理后续章节会反复调用的共同数学工具。内容包括向量与矩阵表示、条件概率与期望、损失函数与经验风险、梯度与 Hessian、熵与交叉熵、正则化与约束优化。它的作用是建立一套贯穿全书的符号系统与理论坐标。
第3章 监督学习的形成:从经验拟合到统计推断
这一章把前两章的对象正式组织成监督学习框架。重点讨论样本与标签、经验风险最小化、训练误差与测试误差、假设空间、偏差—方差权衡与泛化的基本思想。它是从“学习为何可能”走向“如何正式地学习”的关键过渡章。
第4章 线性回归与最小二乘方法
这一章进入机器学习史上第一个成熟的具体模型。内容包括线性模型的定义、最小二乘法、正规方程、正交投影的几何解释、高斯噪声下的概率解释,以及岭回归与 Lasso 等正则化线性模型。它展示了“模型—损失—优化”链条的第一个标准原型。
第5章 分类问题与概率判别模型
这一章讨论当输出从连续值变为离散类别时,机器学习如何建立判别边界。内容包括感知机、Logistic 函数、对数几率、极大似然估计、交叉熵损失和 softmax 多分类。它标志着机器学习从连续预测进一步走向更贴近现实任务的判别与概率建模。
第6章 统计学习理论与泛化问题
这一章是第一编的理论收束。内容包括经验误差与真实误差、一致收敛、模型复杂度、VC 维、结构风险最小化与正则化的理论解释。它回答的是“为什么能学”的问题,并为后续非线性学习与核方法铺垫理论背景。
本编的意义
从全书的历史演进看,第一编对应的是人工智能由“规则系统阶段”转向“统计学习阶段”的理论起点。它讨论的对象看似基础,却决定了后续几乎全部发展能否被真正理解。没有这一编,就很难把后面的核方法、神经网络、深度学习、Transformer 与大语言模型视为一条连续演化的思想史;它们反而会变成若干彼此割裂的技术条目。
因此,第一编的核心意义在于:它把机器学习确立为人工智能的第一个系统性数学基础,也把“从数据中学习规律”这一思想第一次严格地写成了可以分析、可以推导、可以比较的理论对象。