第五编 注意力机制与大语言模型的形成
本编在全书中的位置
这一编讨论的是人工智能发展史上的第五个关键转折点:当第四编已经把“序列建模”和“生成学习”确立为现代 AI 的核心主题之后,研究者很快进一步发现,若模型仍主要依赖循环递推、固定长度状态压缩和任务级微调,那么它仍不足以支撑更长上下文、更大规模知识、更灵活迁移和更自然的人机交互。若说第四编解决的是“如何表示时间、如何学习分布”,那么第五编所处理的,正是人工智能从神经序列模型与生成模型走向注意力架构、预训练语言模型与大语言模型的决定性阶段。
在第四编中,机器学习已经沿着一条清晰路线前进:早期统计模型把序列写成条件概率链,循环神经网络把历史压缩为连续状态,生成模型则进一步把学习目标从判别推进到分布建模。这些进展极其关键,但它们也共同暴露出新的边界。循环结构虽然能够表示时间依赖,却难以在长序列中高效保留信息;固定向量压缩在机器翻译和长文本任务中很快形成瓶颈;生成模型虽然已经学会“从分布中采样”,却仍未形成统一的大规模语言能力平台。
因此,第五编的任务不再只是继续增强序列模型,而是要回答三个更深的核心问题:第一,当历史信息过长、依赖关系过于复杂时,模型如何不再被迫把一切压缩进单一路径状态,而能够动态访问最相关的部分;第二,为什么统一的 Transformer 架构与自监督预训练会把语言建模推进到新的数量级,并逐渐形成大语言模型;第三,当模型已经具备强大生成能力之后,又为何必须进一步通过对齐、检索增强与多模态扩展,把它从封闭的文本生成器推进为开放的交互系统。正是在这些问题上,现代 AI 开始真正进入大模型时代。
本编的总体主线
这一编按照“从注意力机制到 Transformer 架构、从预训练范式到大语言模型能力、再从对齐与知识增强走向开放系统”的顺序展开。
首先,本编会说明为什么注意力机制会在序列到序列任务中被提出。这里的关键不只是说“注意力效果更好”,而是要把它写成清楚的数学问题:当 RNN 已经能够用连续隐状态表示历史,但长序列中的固定压缩仍然导致信息瓶颈时,模型是否可以在生成每一步时动态查看源序列中最相关的位置。正是在这一问题上,注意力机制第一次改变了序列建模对“记忆”的理解,也为后续 Transformer 提供了直接桥梁。
其次,本编会进一步说明,Transformer 为什么不是一个普通的新模型,而是一次架构范式的重构。自注意力、Query-Key-Value、缩放点积、多头机制、位置编码、残差结构和层归一化,共同把序列建模从“递推压缩历史”改写为“在全局关系中建模位置交互”。这一变化使大规模并行训练成为可能,也直接成为后续预训练语言模型和大语言模型的统一技术底座。
再次,本编会把讨论推进到预训练语言模型的建立。这里的核心转折是:既然 Transformer 已经提供了可扩展的结构,那么模型是否可以不再依赖大量人工任务标签,而直接在海量文本中通过自监督目标学习语言分布与通用表示。于是,自回归目标、掩码目标、预训练—微调范式和表示迁移成为新的中心对象。这一步使机器学习从“单任务建模”进一步迈向“先学一般语言能力、再适配具体任务”的新阶段。
随后,本编会讨论真正意义上的大语言模型能力为何会形成。关键不在于简单地说“模型更大了”,而在于解释:当 next-token prediction、自回归生成、上下文化表示、分布式语义表示和规模扩展共同作用时,为什么模型会逐渐表现出问答、总结、代码生成、上下文学习和跨任务迁移等复杂能力。也正是在这里,大语言模型第一次从预训练工具上升为通用语言平台。
但这还不是终点。本编还会进一步说明:如果模型已经具备强大生成能力,那么它为何仍然需要通过指令微调、偏好建模、奖励模型和 RLHF 等技术,才能真正成为更可用的交互系统。随后又会看到,仅靠内部参数和对齐学习仍不足以解决知识更新、事实支持和单模态输入的局限,于是系统进一步发展出检索增强与多模态扩展。
因此,第五编的真正主线并不是若干热门模型的平面罗列,而是一条持续推进的思想链:人工智能先学会动态访问信息,再学会用统一注意力架构建模序列,再学会用自监督预训练获得大规模语言能力,接着通过对齐塑造行为,并最终把外部知识与多模态感知纳入同一系统。这条主线直接把本书从序列模型时代推进到大语言模型时代,也为后续强化学习、工具使用和 Agent 系统铺平道路。
本编各章内容概览
第18章 注意力机制的提出
这一章是第五编的起点。它说明为什么循环神经网络虽然已经能够用连续隐状态压缩历史,却仍会在长序列中形成固定向量瓶颈,也说明研究者为何开始转向“动态访问历史信息”的新思想。内容包括相似性打分、softmax 归一化、加权求和、软对齐、Bahdanau attention 以及注意力在序列到序列任务中的基本结构。它的作用,是把序列建模从“状态压缩范式”推进到“动态访问信息”的范式。
第19章 Transformer的数学原理
这一章把注意力机制从 RNN 的辅助模块提升为完整架构原则。内容包括自注意力、Query-Key-Value、缩放点积注意力、多头注意力、位置编码、残差连接、层归一化与因果掩码等核心对象。它在本编中的地位非常关键,因为它标志着序列建模从循环递推结构正式转向注意力主导结构,也为后续预训练模型和大语言模型提供了统一技术底座。
第20章 预训练语言模型的建立
这一章说明为什么在 Transformer 架构成熟后,研究重点会从“为每个任务单独训练模型”转向“先在海量文本上自监督预训练,再适配具体任务”。内容包括语言模型的联合概率分解、自回归目标、掩码语言模型目标、预训练—微调范式、表示迁移以及编码器型与解码器型模型的分化。它标志着语言建模第一次被组织为大规模、可迁移的统一学习范式。
第21章 大语言模型的能力形成
这一章进一步回答:为什么看似简单的 next-token prediction,会在规模持续扩大后逐渐表现出远超传统 NLP 系统的复杂能力。内容包括词元化、条件概率建模、上下文化表示、分布式语义表示、in-context learning、规模法则与涌现现象的数学理解。它在本编中的作用,是把预训练语言模型正式提升为“大语言模型”这一更广义的通用能力平台。
第22章 指令微调对齐与人类反馈学习
这一章说明为什么一个会生成文本的大模型,并不自动等于一个可直接使用的助手,也说明对齐技术为何会迅速成为大模型发展中的核心方向。内容包括监督微调、偏好数据、奖励模型、RLHF、KL 正则、目标错配与行为塑形。它标志着大语言模型开始从“会生成”转向“会遵循意图、会协作、行为更可控”的交互系统。
第23章 检索增强与多模态扩展
这一章把第五编进一步推进到开放资源系统阶段。内容包括向量嵌入、相似性检索、RAG、外部上下文拼接、跨模态对齐、联合表示学习以及视觉语言模型与多模态预训练框架。它说明当参数化记忆和纯文本输入的边界显现之后,系统如何通过接入外部知识与多种感知信号继续扩展能力边界,也直接预示了后续 Agent 系统的发展方向。
本编的意义
从全书的历史演进看,第五编对应的是人工智能从“深度序列建模与生成学习已经建立”走向“统一注意力架构、大规模语言预训练与开放交互系统形成”的阶段。第四编解决的是如何表示历史、如何学习分布;而第五编所做的,是把这些能力进一步整合到一个能够扩展到超大规模、能够迁移到多任务、能够通过自然语言与人类交互的统一框架中。
没有这一编,后面的强化学习、检索工具使用、多模态系统与 Agent 框架就会像若干彼此分散的技术浪潮;但若把第五编放回整条思想史中,就会看到它完成了一个决定性的统一:注意力机制重写了序列建模方式,Transformer 重写了模型架构,自监督预训练重写了学习范式,大语言模型重写了能力边界,而对齐与知识增强又重写了系统与人类、与外部世界的关系。
因此,第五编的核心意义在于:它把大语言模型时代的基础数学与系统思想正式确立起来,也把人工智能从“会学习的模型”进一步推进为“会交互、会接入外部资源、会持续扩展能力边界的开放系统”。也正因为如此,它构成了后续强化学习、工具调用与智能体系统能够真正展开的历史中枢。