第五编注意力机制与大语言模型的形成 · 05_第五编_注意力机制与大语言模型的形成/第22章_指令微调对齐与人类反馈学习/chapter.md

第22章指令微调对齐与人类反馈学习

本章核心问题

如何让语言模型从“会生成文本”进一步转向“会遵循人类意图、对人有用、行为更可控”的交互系统？

1. 问题背景

在上一章中，我们已经讨论了大语言模型能力形成的原因。核心结论是：当自回归预训练、上下文化表示、分布式语义表示和规模扩展共同作用时，模型会逐渐表现出强大的生成能力和迁移能力。它不再只是某个具体任务的专用模型，而开始成为能够通过提示完成多类任务的通用语言平台。

但是，一个能够生成高质量文本的模型，并不自动等于一个可直接使用的助手。因为从预训练角度看，模型学习到的目标仍然只是“让下一个词元的概率尽可能正确”。这个目标虽然足以产生流畅文本、知识片段和任务迁移能力，却并不直接等价于“理解用户意图”“给出有帮助回答”“避免危险内容”“在不确定时表达保留”“遵守对话规范”等人类真正关心的行为标准。

这正是预训练大模型与交互式助手之间的关键差别。对于人类用户而言，一个好的助手不仅要会说，还要会按照要求说；不仅要会生成，还要知道什么时候拒绝、什么时候澄清、什么时候简洁、什么时候详细。换句话说，人类需要的不是一个单纯的概率续写器，而是一个在行为层面受到塑造的系统。

因此，从第五编的发展逻辑来看，第22章讨论的是大语言模型演化中的下一次重要转向。第20章解决了“如何通过自监督大规模学习语言分布”，第21章解释了“为什么这种学习在大规模下会形成复杂能力”，而本章要处理的是“如何把这些能力朝着人类期望的方向重新组织和约束”。这一步通常被称为对齐，也就是 alignment。

对齐技术之所以迅速发展，是因为人们很快意识到：如果模型已经具备强大的生成与迁移能力，那么真正限制其应用的，不再只是参数规模，而是行为质量。一个模型如果无法稳定遵循指令、难以反映人类偏好、容易给出不安全或无关回答，那么它即使在语言建模指标上很强，也很难成为可靠的交互系统。

这就推动了三条重要方法的形成。第一条是监督微调，也就是用人工编写或筛选的高质量指令数据，让模型学会“问题应该怎样回答”。第二条是偏好建模，也就是让人类比较多个回答，从中表达“哪个更好”。第三条是基于人类反馈的强化学习，也就是把人类偏好进一步转化为可优化的奖励信号，对模型行为做更细致的塑形。正是这三步，使大语言模型从“会生成”逐渐走向“会协作”。

2. 数学原理

2.1 指令微调作为监督学习

最直接的对齐方法，是监督微调，也就是 supervised fine-tuning，常记为 SFT。它的基本思想是：构造一批“指令 - 理想回答”数据，让模型在这些数据上继续训练，从而学会把自然语言指令映射为更符合人类期待的回答。

设一条训练样本写成

$$ (u,y), $$

其中 $u$ 表示用户指令，$y$ 表示人工提供的高质量回答。若模型参数仍记为 $\theta$，那么 SFT 的目标可以写成条件负对数似然最小化：

\mathcal L_{\mathrm{SFT}}(\theta)=-\sum_{(u,y)\in\mathcal S}\sum_{t=1}^{T_y}\log P_\theta\big(y_t\mid u,y_{<t}\big).

这里，$\mathcal S$ 表示指令微调数据集；$T_y$ 表示回答序列 $y$ 的长度；$y_t$ 表示回答在位置 $t$ 上的词元；$y_{<t}$ 表示回答前缀；$P_\theta(y_t\mid u,y_{<t})$ 表示在给定指令 $u$ 和已生成回答前缀时，下一个词元的条件概率。

这个目标函数与第20章和第21章中的自回归训练在形式上非常接近，但语义上已经发生了重要变化。预训练时，模型面对的是广义文本分布；而 SFT 时，模型面对的是“在用户提出某种问题时，什么样的回答更像人类希望看到的回答”。因此，SFT 的作用不是重新发明语言能力，而是把已有能力重新映射到“指令遵循”这一行为坐标系中。

2.2 为什么 SFT 还不够

虽然监督微调能够显著改善模型的交互风格，但它仍然存在一个内在限制：对于很多开放式任务，并不存在唯一正确的标准回答。一个问题可以有多个都合理的答法，而且这些答法在“有帮助性”“安全性”“礼貌性”“简洁性”“是否愿意澄清”等维度上可能存在细微差别。

如果只用监督学习，那么训练目标默认把数据集中出现的那一个回答视为唯一标准，这会忽略偏好的相对性。换句话说，SFT 能告诉模型“这样答可以”，却不一定能细致表达“在多个都能答的方案里，哪个更好”。

这就引出了偏好学习。与其要求人类为每个问题都写出唯一标准答案，不如让人类比较多个候选回答，并指出更喜欢哪一个。比较通常比完整标注更容易，也更能反映实际使用中的行为偏好。

2.3 偏好数据与成对比较

设对于同一个提示 $u$，模型或采样过程产生了两个候选回答 $y^+$ 与 $y^-$。这里，$y^+$ 表示被人类偏好的回答，$y^-$ 表示相对较差的回答。于是，一条偏好样本可以写成

$$ (u,y^+,y^-). $$

偏好学习的目标，不是直接预测下一个词，而是学习一个评分函数，使更受偏好的回答得到更高分。设这个评分函数记为

r_\phi(u,y),

其中 $r_\phi$ 表示奖励模型或偏好模型，$\phi$ 是其参数。这个函数输入提示 $u$ 和完整回答 $y$，输出一个实数分数，用来刻画该回答在给定提示下的质量。

为了让模型学会“偏好回答得分更高”，常用的成对比较目标写成

\mathcal L_{\mathrm{RM}}(\phi)=-\sum_{(u,y^+,y^-)\in\mathcal P}\log \sigma\big(r_\phi(u,y^+)-r_\phi(u,y^-)\big).

这里，$\mathcal P$ 表示偏好数据集；$\sigma(z)=\frac{1}{1+e^{-z}}$ 表示 sigmoid 函数；$r_\phi(u,y^+)-r_\phi(u,y^-)$ 表示两个回答得分之差。这个损失的含义是：如果偏好回答的得分明显高于不偏好回答，那么 sigmoid 的输出就接近 1，损失就较小；反之，若模型把差回答评得更高，损失就会变大。

这一步非常关键，因为它把原本模糊的人类偏好，转化成了一个可以数值优化的奖励信号。

2.4 奖励模型的意义

奖励模型的核心作用，是把“人类更喜欢什么样的回答”近似编码成一个标量函数 $r_\phi(u,y)$。一旦这个函数学出来，我们就可以不用每次都让人类亲自比较，而是让模型自己根据奖励分数来调整行为。

从数学上看，这一步相当于在语言模型的原始条件概率之外，又引入了一个额外目标：不仅要生成高概率文本，还要生成高奖励文本。于是，模型行为的优化目标开始从单纯的语言拟合转向“语言拟合 + 偏好塑形”。

但这里也要看到一个重要风险：奖励模型本身只是对人类偏好的近似，它并不等于真实偏好本身。如果奖励模型学习得不准确，或者只捕捉到某些表面特征，那么后续优化过程就可能出现奖励错配，也就是模型学会迎合奖励模型，而不是真正迎合人类。

这也是为什么对齐问题在本质上比普通监督学习更复杂。因为这里要优化的，并不是一个自然给定的客观标签，而是一个带有主观性、上下文依赖和不完备性的偏好函数。

2.5 RLHF 的基本优化形式

在得到奖励模型之后，下一步通常是基于人类反馈的强化学习，也就是 RLHF。其基本思想是：把语言模型视为一个策略，用奖励模型给它的完整回答打分，然后调整策略参数，使高奖励回答更容易出现。

设语言模型策略记为

\pi_\theta(y\mid u),

其中 $\pi_\theta$ 表示在提示 $u$ 下生成回答 $y$ 的策略分布，$\theta$ 是策略参数。若奖励模型给出的分数为 $r_\phi(u,y)$，那么一个基本优化目标可以写为

\max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big].

这里，$\mathbb E$ 表示期望，$y\sim \pi_\theta(\cdot\mid u)$ 表示回答 $y$ 是从当前策略分布中采样得到的。这个目标说明：模型希望提高自己生成高奖励回答的概率。

但是，如果只盯着奖励最大化，模型可能会偏离原有语言分布太远，导致输出变得奇怪、重复或不稳定。因此，在实际系统中，常常还会加入相对于参考模型的 KL 正则项。设参考策略记为 $\pi_{\mathrm{ref}}$，那么一个更常见的目标是

\max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big]-\beta\, D_{\mathrm{KL}}\big(\pi_\theta(\cdot\mid u)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid u)\big).

这里，$\beta>0$ 是正则化系数，用来控制奖励优化与分布保持之间的权衡；$D_{\mathrm{KL}}$ 表示 KL 散度，用来衡量两个分布之间的差异。这个式子的含义是：模型既要朝更高奖励方向移动，又不能离原来的语言模型太远。

2.6 PPO 风格的参数更新直觉

在 RLHF 的具体实现中，常见做法是使用 PPO 一类的策略优化方法。对于本书而言，重要的不是记住 PPO 的全部工程细节，而是理解它在这里承担的数学角色。

强化学习中的策略梯度思想告诉我们，若优化目标写成期望奖励，那么参数更新方向通常与

\nabla_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}[r_\phi(u,y)]

有关。这里，$\nabla_\theta$ 表示对参数 $\theta$ 的梯度。直观地说，如果某些回答获得较高奖励，那么这些回答路径上的生成概率就应被提高；若某些回答获得较低奖励，那么对应概率就应被压低。

PPO 的作用，是在“朝高奖励方向优化”和“避免每一步更新过猛”之间建立一个更稳定的折中。也就是说，它并不只是为了让模型奖励更高，而是为了让奖励提升过程保持可控，避免策略在一步更新中偏离得太远。

因此，RLHF 不是一个神秘附加模块，而是把第21章中的概率生成模型重新解释为一个可被奖励塑形的策略系统。

2.7 目标错配与行为塑形

对齐技术之所以重要，也正是因为预训练目标与真实使用目标之间存在错配。预训练优化的是“什么词最可能出现”，而用户真正关心的是“什么回答最有帮助、最安全、最符合意图”。这两个目标有重叠，但并不完全一致。

我们可以把这种差别抽象为两个目标函数的不同。预训练模型近似优化的是

\max_\theta \mathbb E_{x\sim P_{\mathrm{data}}}\big[\log P_\theta(x)\big],

其中 $P_{\mathrm{data}}$ 表示训练文本的数据分布。而对齐阶段更关注的是某种人类效用函数

$$ U(u,y), $$

这里，$U(u,y)$ 表示在提示 $u$ 下，人类对回答 $y$ 的满意程度。问题在于，真实的 $U$ 往往无法直接写出，只能通过偏好数据和奖励模型近似。

因此，所谓“行为塑形”，本质上就是在不破坏语言能力的前提下，让模型生成分布逐渐向更高人类效用的区域移动。这个过程既是优化问题，也是建模问题，因为我们永远只能逼近人类偏好，而很难完整表达它。

3. 代表模型或算法

3.1 SFT

SFT 是现代对齐流程的第一步。它通常从一个已经完成大规模预训练的语言模型开始，再利用人工编写的高质量指令样本继续进行监督训练。

它的优点是简单直接，数学形式与普通语言模型微调几乎一致，只是训练数据从一般文本换成了“指令 - 回答”对。它的作用也很明确：快速把模型从“会续写”调整为“会回答问题、会解释、会遵循基本交互格式”。

但 SFT 也有局限。它依赖已有的理想回答样本，而这类样本既昂贵，又难以覆盖所有开放式交互情景。更重要的是，它难以表达多个可接受答案之间的优劣差异。

3.2 Reward Model

奖励模型是对齐流程中的第二步。相比直接要求唯一标准答案，它更关注“在人类看来，哪一个回答更好”。这使它能够表达开放式任务中的相对偏好。

从建模角度看，奖励模型把复杂的人类评价压缩成一个可优化的标量分数函数 $r_\phi(u,y)$。这一步为后续强化学习提供了桥梁，因为只有把偏好数值化，模型才能围绕它进行梯度优化。

奖励模型的质量往往直接决定后续 RLHF 的上限。如果奖励模型过于肤浅、偏置明显或无法反映关键安全标准，那么后面的策略优化就可能沿着错误方向前进。

3.3 PPO 风格 RLHF 流程

完整的 RLHF 流程通常可以概括为三步。第一步，利用 SFT 把预训练模型变成初始对话模型。第二步，收集偏好数据并训练奖励模型。第三步，以 SFT 模型为初始化策略，在奖励模型和 KL 正则约束下进行策略优化。

这一流程之所以成为经典，不是因为它在形式上最简单，而是因为它把“语言能力”“偏好表达”“行为优化”这三件事明确分开：预训练负责能力底座，奖励模型负责偏好抽象，强化学习负责行为塑形。正是这种分层结构，使现代大模型从纯文本生成器逐渐转向可交互系统。

4. 典型应用

4.1 对话助手

对话助手是指令微调和对齐技术最典型的应用。用户输入的是自然语言请求，真正需要的是符合意图、结构清晰、语气得当的回答，而不是单纯高概率的续写。

本章的数学内容在这里具体落地为三步。首先，SFT 通过最小化

\mathcal L_{\mathrm{SFT}}(\theta)=-\sum_{(u,y)\in\mathcal S}\sum_{t=1}^{T_y}\log P_\theta\big(y_t\mid u,y_{<t}\big)

让模型学会在给定指令时输出更像助手的回答。然后，偏好数据告诉模型“多个回答里哪一个更有帮助”。最后，RLHF 再用奖励最大化把这种偏好进一步固化到生成策略里。于是，对话助手的形成不只是“多训一点聊天数据”，而是“把指令遵循和人类偏好显式写进优化目标”。

4.2 安全回答

安全回答是对齐技术特别重要的应用领域。对于高风险主题，用户希望模型避免危险建议、虚构事实或不当引导。单纯预训练无法保证这一点，因为预训练的目标只是拟合文本分布，而文本分布本身可能包含不安全或冲突信号。

在这里，奖励模型与偏好学习的作用尤其明显。人类可以在成对比较中明确表达：哪个回答更谨慎、更符合安全边界。于是，这些偏好被编码进 $r_\phi(u,y)$ 中，后续 RLHF 再通过奖励优化提高安全回答出现的概率。

换句话说，安全性并不是凭空附加的规则，而是通过偏好建模和策略塑形，逐渐把“更安全的回答”变成模型更高概率的行为模式。

4.3 指令执行

很多实际任务并不要求模型自由发挥，而是要求它严格执行约束，例如“只输出 JSON”“按指定格式总结”“先列步骤再给结论”“不要超过三句话”。这类需求最能体现 SFT 与对齐的必要性。

因为在普通预训练中，模型主要学会的是自然文本延续，而不是稳定遵循人为格式约束。经过 SFT 后，模型开始把“指令文本”理解为重要条件；经过偏好优化后，它还会进一步学到：即使多个回答都语义正确，那些更严格遵守格式和约束的回答更受偏好。

因此，指令执行能力并不是语言能力的自动副产品，而是对齐阶段主动塑造出来的行为能力。

4.4 有帮助性的提升

“有帮助”是一个很抽象的目标，但它恰好最能说明为什么要引入偏好学习。因为帮助性往往不是非黑即白的，而是有层次差异的。例如，两个回答都没有事实错误，但一个更具体、更有结构、更贴近用户意图，人类就会更偏好它。

这一类差别很难只靠监督标签表达，却非常适合通过偏好数据刻画。于是，在应用层面上，人们常常会发现：同样一个模型，在经历 RLHF 后，回答变得更愿意解释、更会组织结构、更会补充背景，也更像是在与用户协作。这正是偏好优化对行为分布进行塑形的结果。

5. 局限性与历史转折

尽管指令微调与 RLHF 极大提升了模型的可用性，但它们并没有从根本上消除大语言模型的全部问题。

首先，人类偏好本身难以完备表达。不同用户、不同文化、不同场景下，对“有帮助”“安全”“适当”的理解可能并不一致。奖励模型学到的，永远只是某一批标注者、某一套流程下的近似偏好，而不可能完整代表全部人类价值。

其次，对齐不等于真实可靠。一个经过良好对齐的模型，可能会更礼貌、更稳健、更愿意澄清，但这并不自动意味着它在事实层面一定正确。也就是说，对齐能塑造行为风格，却不能单独解决知识真实性与外部验证问题。

再次，奖励模型可能被“投机取巧”。如果策略优化只学会迎合奖励模型的表面模式，而没有真正提高回答质量，就会出现奖励黑客现象。这说明任何基于奖励的对齐方法，都必须警惕目标代理与真实目标之间的偏差。

正因为如此，第22章虽然把生成模型推进到了交互模型，但它也清楚地揭示出一个新的方向：仅靠内部参数学习仍然不足以解决知识更新、事实验证、外部工具调用和长期任务执行等问题。于是，系统开始需要接入检索、工具和多模态能力，并进一步走向更复杂的智能体结构。这正是下一章和后续几编要继续讨论的历史转折。

6. 本章小结

本章讨论了指令微调、对齐与人类反馈学习的数学基础。核心结论是：预训练大模型虽然已经具备强大的语言能力，但要成为真正可用的交互系统，还必须通过额外优化把行为分布塑造成更符合人类意图的形式。SFT 用监督学习建立基本的指令遵循能力，偏好学习用成对比较抽取人类偏好，奖励模型把偏好转成可优化分数，而 RLHF 再用强化学习把这种偏好进一步固化到策略中。

从发展脉络看，这一步非常关键。它意味着大语言模型不再只是“会生成很多内容”，而开始成为“会围绕人类目标调整输出方式”的交互系统。这既是现代助手模型形成的关键步骤，也是通向后续 Agent 系统的必要基础。

关键公式

\mathcal L_{\mathrm{SFT}}(\theta)=-\sum_{(u,y)\in\mathcal S}\sum_{t=1}^{T_y}\log P_\theta\big(y_t\mid u,y_{<t}\big).

\mathcal L_{\mathrm{RM}}(\phi)=-\sum_{(u,y^+,y^-)\in\mathcal P}\log \sigma\big(r_\phi(u,y^+)-r_\phi(u,y^-)\big).

\max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big].

\max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big]-\beta\, D_{\mathrm{KL}}\big(\pi_\theta(\cdot\mid u)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid u)\big).

关键概念

指令微调
对齐
偏好学习
奖励模型
RLHF
策略分布
KL 正则
目标错配
行为塑形
可控性

第22章 指令微调对齐与人类反馈学习