字体大小
第五编 注意力机制与大语言模型的形成 · 05_第五编_注意力机制与大语言模型的形成/第22章_指令微调对齐与人类反馈学习/chapter.md

第22章 指令微调对齐与人类反馈学习

本章核心问题

如何让语言模型从“会生成文本”进一步转向“会遵循人类意图、对人有用、行为更可控”的交互系统?

1. 问题背景

在上一章中,我们已经讨论了大语言模型能力形成的原因。核心结论是:当自回归预训练、上下文化表示、分布式语义表示和规模扩展共同作用时,模型会逐渐表现出强大的生成能力和迁移能力。它不再只是某个具体任务的专用模型,而开始成为能够通过提示完成多类任务的通用语言平台。

但是,一个能够生成高质量文本的模型,并不自动等于一个可直接使用的助手。因为从预训练角度看,模型学习到的目标仍然只是“让下一个词元的概率尽可能正确”。这个目标虽然足以产生流畅文本、知识片段和任务迁移能力,却并不直接等价于“理解用户意图”“给出有帮助回答”“避免危险内容”“在不确定时表达保留”“遵守对话规范”等人类真正关心的行为标准。

这正是预训练大模型与交互式助手之间的关键差别。对于人类用户而言,一个好的助手不仅要会说,还要会按照要求说;不仅要会生成,还要知道什么时候拒绝、什么时候澄清、什么时候简洁、什么时候详细。换句话说,人类需要的不是一个单纯的概率续写器,而是一个在行为层面受到塑造的系统。

因此,从第五编的发展逻辑来看,第22章讨论的是大语言模型演化中的下一次重要转向。第20章解决了“如何通过自监督大规模学习语言分布”,第21章解释了“为什么这种学习在大规模下会形成复杂能力”,而本章要处理的是“如何把这些能力朝着人类期望的方向重新组织和约束”。这一步通常被称为对齐,也就是 alignment。

对齐技术之所以迅速发展,是因为人们很快意识到:如果模型已经具备强大的生成与迁移能力,那么真正限制其应用的,不再只是参数规模,而是行为质量。一个模型如果无法稳定遵循指令、难以反映人类偏好、容易给出不安全或无关回答,那么它即使在语言建模指标上很强,也很难成为可靠的交互系统。

这就推动了三条重要方法的形成。第一条是监督微调,也就是用人工编写或筛选的高质量指令数据,让模型学会“问题应该怎样回答”。第二条是偏好建模,也就是让人类比较多个回答,从中表达“哪个更好”。第三条是基于人类反馈的强化学习,也就是把人类偏好进一步转化为可优化的奖励信号,对模型行为做更细致的塑形。正是这三步,使大语言模型从“会生成”逐渐走向“会协作”。

2. 数学原理

2.1 指令微调作为监督学习

最直接的对齐方法,是监督微调,也就是 supervised fine-tuning,常记为 SFT。它的基本思想是:构造一批“指令 - 理想回答”数据,让模型在这些数据上继续训练,从而学会把自然语言指令映射为更符合人类期待的回答。

设一条训练样本写成

$$ (u,y), $$

其中 $u$ 表示用户指令,$y$ 表示人工提供的高质量回答。若模型参数仍记为 $\theta$,那么 SFT 的目标可以写成条件负对数似然最小化:

$$ \mathcal L_{\mathrm{SFT}}(\theta)=-\sum_{(u,y)\in\mathcal S}\sum_{t=1}^{T_y}\log P_\theta\big(y_t\mid u,y_{<t}\big). $$

这里,$\mathcal S$ 表示指令微调数据集;$T_y$ 表示回答序列 $y$ 的长度;$y_t$ 表示回答在位置 $t$ 上的词元;$y_{<t}$ 表示回答前缀;$P_\theta(y_t\mid u,y_{<t})$ 表示在给定指令 $u$ 和已生成回答前缀时,下一个词元的条件概率。

这个目标函数与第20章和第21章中的自回归训练在形式上非常接近,但语义上已经发生了重要变化。预训练时,模型面对的是广义文本分布;而 SFT 时,模型面对的是“在用户提出某种问题时,什么样的回答更像人类希望看到的回答”。因此,SFT 的作用不是重新发明语言能力,而是把已有能力重新映射到“指令遵循”这一行为坐标系中。

2.2 为什么 SFT 还不够

虽然监督微调能够显著改善模型的交互风格,但它仍然存在一个内在限制:对于很多开放式任务,并不存在唯一正确的标准回答。一个问题可以有多个都合理的答法,而且这些答法在“有帮助性”“安全性”“礼貌性”“简洁性”“是否愿意澄清”等维度上可能存在细微差别。

如果只用监督学习,那么训练目标默认把数据集中出现的那一个回答视为唯一标准,这会忽略偏好的相对性。换句话说,SFT 能告诉模型“这样答可以”,却不一定能细致表达“在多个都能答的方案里,哪个更好”。

这就引出了偏好学习。与其要求人类为每个问题都写出唯一标准答案,不如让人类比较多个候选回答,并指出更喜欢哪一个。比较通常比完整标注更容易,也更能反映实际使用中的行为偏好。

2.3 偏好数据与成对比较

设对于同一个提示 $u$,模型或采样过程产生了两个候选回答 $y^+$ 与 $y^-$。这里,$y^+$ 表示被人类偏好的回答,$y^-$ 表示相对较差的回答。于是,一条偏好样本可以写成

$$ (u,y^+,y^-). $$

偏好学习的目标,不是直接预测下一个词,而是学习一个评分函数,使更受偏好的回答得到更高分。设这个评分函数记为

$$ r_\phi(u,y), $$

其中 $r_\phi$ 表示奖励模型或偏好模型,$\phi$ 是其参数。这个函数输入提示 $u$ 和完整回答 $y$,输出一个实数分数,用来刻画该回答在给定提示下的质量。

为了让模型学会“偏好回答得分更高”,常用的成对比较目标写成

$$ \mathcal L_{\mathrm{RM}}(\phi)=-\sum_{(u,y^+,y^-)\in\mathcal P}\log \sigma\big(r_\phi(u,y^+)-r_\phi(u,y^-)\big). $$

这里,$\mathcal P$ 表示偏好数据集;$\sigma(z)=\frac{1}{1+e^{-z}}$ 表示 sigmoid 函数;$r_\phi(u,y^+)-r_\phi(u,y^-)$ 表示两个回答得分之差。这个损失的含义是:如果偏好回答的得分明显高于不偏好回答,那么 sigmoid 的输出就接近 1,损失就较小;反之,若模型把差回答评得更高,损失就会变大。

这一步非常关键,因为它把原本模糊的人类偏好,转化成了一个可以数值优化的奖励信号。

2.4 奖励模型的意义

奖励模型的核心作用,是把“人类更喜欢什么样的回答”近似编码成一个标量函数 $r_\phi(u,y)$。一旦这个函数学出来,我们就可以不用每次都让人类亲自比较,而是让模型自己根据奖励分数来调整行为。

从数学上看,这一步相当于在语言模型的原始条件概率之外,又引入了一个额外目标:不仅要生成高概率文本,还要生成高奖励文本。于是,模型行为的优化目标开始从单纯的语言拟合转向“语言拟合 + 偏好塑形”。

但这里也要看到一个重要风险:奖励模型本身只是对人类偏好的近似,它并不等于真实偏好本身。如果奖励模型学习得不准确,或者只捕捉到某些表面特征,那么后续优化过程就可能出现奖励错配,也就是模型学会迎合奖励模型,而不是真正迎合人类。

这也是为什么对齐问题在本质上比普通监督学习更复杂。因为这里要优化的,并不是一个自然给定的客观标签,而是一个带有主观性、上下文依赖和不完备性的偏好函数。

2.5 RLHF 的基本优化形式

在得到奖励模型之后,下一步通常是基于人类反馈的强化学习,也就是 RLHF。其基本思想是:把语言模型视为一个策略,用奖励模型给它的完整回答打分,然后调整策略参数,使高奖励回答更容易出现。

设语言模型策略记为

$$ \pi_\theta(y\mid u), $$

其中 $\pi_\theta$ 表示在提示 $u$ 下生成回答 $y$ 的策略分布,$\theta$ 是策略参数。若奖励模型给出的分数为 $r_\phi(u,y)$,那么一个基本优化目标可以写为

$$ \max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big]. $$

这里,$\mathbb E$ 表示期望,$y\sim \pi_\theta(\cdot\mid u)$ 表示回答 $y$ 是从当前策略分布中采样得到的。这个目标说明:模型希望提高自己生成高奖励回答的概率。

但是,如果只盯着奖励最大化,模型可能会偏离原有语言分布太远,导致输出变得奇怪、重复或不稳定。因此,在实际系统中,常常还会加入相对于参考模型的 KL 正则项。设参考策略记为 $\pi_{\mathrm{ref}}$,那么一个更常见的目标是

$$ \max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big]-\beta\, D_{\mathrm{KL}}\big(\pi_\theta(\cdot\mid u)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid u)\big). $$

这里,$\beta>0$ 是正则化系数,用来控制奖励优化与分布保持之间的权衡;$D_{\mathrm{KL}}$ 表示 KL 散度,用来衡量两个分布之间的差异。这个式子的含义是:模型既要朝更高奖励方向移动,又不能离原来的语言模型太远。

2.6 PPO 风格的参数更新直觉

在 RLHF 的具体实现中,常见做法是使用 PPO 一类的策略优化方法。对于本书而言,重要的不是记住 PPO 的全部工程细节,而是理解它在这里承担的数学角色。

强化学习中的策略梯度思想告诉我们,若优化目标写成期望奖励,那么参数更新方向通常与

$$ \nabla_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}[r_\phi(u,y)] $$

有关。这里,$\nabla_\theta$ 表示对参数 $\theta$ 的梯度。直观地说,如果某些回答获得较高奖励,那么这些回答路径上的生成概率就应被提高;若某些回答获得较低奖励,那么对应概率就应被压低。

PPO 的作用,是在“朝高奖励方向优化”和“避免每一步更新过猛”之间建立一个更稳定的折中。也就是说,它并不只是为了让模型奖励更高,而是为了让奖励提升过程保持可控,避免策略在一步更新中偏离得太远。

因此,RLHF 不是一个神秘附加模块,而是把第21章中的概率生成模型重新解释为一个可被奖励塑形的策略系统。

2.7 目标错配与行为塑形

对齐技术之所以重要,也正是因为预训练目标与真实使用目标之间存在错配。预训练优化的是“什么词最可能出现”,而用户真正关心的是“什么回答最有帮助、最安全、最符合意图”。这两个目标有重叠,但并不完全一致。

我们可以把这种差别抽象为两个目标函数的不同。预训练模型近似优化的是

$$ \max_\theta \mathbb E_{x\sim P_{\mathrm{data}}}\big[\log P_\theta(x)\big], $$

其中 $P_{\mathrm{data}}$ 表示训练文本的数据分布。而对齐阶段更关注的是某种人类效用函数

$$ U(u,y), $$

这里,$U(u,y)$ 表示在提示 $u$ 下,人类对回答 $y$ 的满意程度。问题在于,真实的 $U$ 往往无法直接写出,只能通过偏好数据和奖励模型近似。

因此,所谓“行为塑形”,本质上就是在不破坏语言能力的前提下,让模型生成分布逐渐向更高人类效用的区域移动。这个过程既是优化问题,也是建模问题,因为我们永远只能逼近人类偏好,而很难完整表达它。

3. 代表模型或算法

3.1 SFT

SFT 是现代对齐流程的第一步。它通常从一个已经完成大规模预训练的语言模型开始,再利用人工编写的高质量指令样本继续进行监督训练。

它的优点是简单直接,数学形式与普通语言模型微调几乎一致,只是训练数据从一般文本换成了“指令 - 回答”对。它的作用也很明确:快速把模型从“会续写”调整为“会回答问题、会解释、会遵循基本交互格式”。

但 SFT 也有局限。它依赖已有的理想回答样本,而这类样本既昂贵,又难以覆盖所有开放式交互情景。更重要的是,它难以表达多个可接受答案之间的优劣差异。

3.2 Reward Model

奖励模型是对齐流程中的第二步。相比直接要求唯一标准答案,它更关注“在人类看来,哪一个回答更好”。这使它能够表达开放式任务中的相对偏好。

从建模角度看,奖励模型把复杂的人类评价压缩成一个可优化的标量分数函数 $r_\phi(u,y)$。这一步为后续强化学习提供了桥梁,因为只有把偏好数值化,模型才能围绕它进行梯度优化。

奖励模型的质量往往直接决定后续 RLHF 的上限。如果奖励模型过于肤浅、偏置明显或无法反映关键安全标准,那么后面的策略优化就可能沿着错误方向前进。

3.3 PPO 风格 RLHF 流程

完整的 RLHF 流程通常可以概括为三步。第一步,利用 SFT 把预训练模型变成初始对话模型。第二步,收集偏好数据并训练奖励模型。第三步,以 SFT 模型为初始化策略,在奖励模型和 KL 正则约束下进行策略优化。

这一流程之所以成为经典,不是因为它在形式上最简单,而是因为它把“语言能力”“偏好表达”“行为优化”这三件事明确分开:预训练负责能力底座,奖励模型负责偏好抽象,强化学习负责行为塑形。正是这种分层结构,使现代大模型从纯文本生成器逐渐转向可交互系统。

4. 典型应用

4.1 对话助手

对话助手是指令微调和对齐技术最典型的应用。用户输入的是自然语言请求,真正需要的是符合意图、结构清晰、语气得当的回答,而不是单纯高概率的续写。

本章的数学内容在这里具体落地为三步。首先,SFT 通过最小化

$$ \mathcal L_{\mathrm{SFT}}(\theta)=-\sum_{(u,y)\in\mathcal S}\sum_{t=1}^{T_y}\log P_\theta\big(y_t\mid u,y_{<t}\big) $$

让模型学会在给定指令时输出更像助手的回答。然后,偏好数据告诉模型“多个回答里哪一个更有帮助”。最后,RLHF 再用奖励最大化把这种偏好进一步固化到生成策略里。于是,对话助手的形成不只是“多训一点聊天数据”,而是“把指令遵循和人类偏好显式写进优化目标”。

4.2 安全回答

安全回答是对齐技术特别重要的应用领域。对于高风险主题,用户希望模型避免危险建议、虚构事实或不当引导。单纯预训练无法保证这一点,因为预训练的目标只是拟合文本分布,而文本分布本身可能包含不安全或冲突信号。

在这里,奖励模型与偏好学习的作用尤其明显。人类可以在成对比较中明确表达:哪个回答更谨慎、更符合安全边界。于是,这些偏好被编码进 $r_\phi(u,y)$ 中,后续 RLHF 再通过奖励优化提高安全回答出现的概率。

换句话说,安全性并不是凭空附加的规则,而是通过偏好建模和策略塑形,逐渐把“更安全的回答”变成模型更高概率的行为模式。

4.3 指令执行

很多实际任务并不要求模型自由发挥,而是要求它严格执行约束,例如“只输出 JSON”“按指定格式总结”“先列步骤再给结论”“不要超过三句话”。这类需求最能体现 SFT 与对齐的必要性。

因为在普通预训练中,模型主要学会的是自然文本延续,而不是稳定遵循人为格式约束。经过 SFT 后,模型开始把“指令文本”理解为重要条件;经过偏好优化后,它还会进一步学到:即使多个回答都语义正确,那些更严格遵守格式和约束的回答更受偏好。

因此,指令执行能力并不是语言能力的自动副产品,而是对齐阶段主动塑造出来的行为能力。

4.4 有帮助性的提升

“有帮助”是一个很抽象的目标,但它恰好最能说明为什么要引入偏好学习。因为帮助性往往不是非黑即白的,而是有层次差异的。例如,两个回答都没有事实错误,但一个更具体、更有结构、更贴近用户意图,人类就会更偏好它。

这一类差别很难只靠监督标签表达,却非常适合通过偏好数据刻画。于是,在应用层面上,人们常常会发现:同样一个模型,在经历 RLHF 后,回答变得更愿意解释、更会组织结构、更会补充背景,也更像是在与用户协作。这正是偏好优化对行为分布进行塑形的结果。

5. 局限性与历史转折

尽管指令微调与 RLHF 极大提升了模型的可用性,但它们并没有从根本上消除大语言模型的全部问题。

首先,人类偏好本身难以完备表达。不同用户、不同文化、不同场景下,对“有帮助”“安全”“适当”的理解可能并不一致。奖励模型学到的,永远只是某一批标注者、某一套流程下的近似偏好,而不可能完整代表全部人类价值。

其次,对齐不等于真实可靠。一个经过良好对齐的模型,可能会更礼貌、更稳健、更愿意澄清,但这并不自动意味着它在事实层面一定正确。也就是说,对齐能塑造行为风格,却不能单独解决知识真实性与外部验证问题。

再次,奖励模型可能被“投机取巧”。如果策略优化只学会迎合奖励模型的表面模式,而没有真正提高回答质量,就会出现奖励黑客现象。这说明任何基于奖励的对齐方法,都必须警惕目标代理与真实目标之间的偏差。

正因为如此,第22章虽然把生成模型推进到了交互模型,但它也清楚地揭示出一个新的方向:仅靠内部参数学习仍然不足以解决知识更新、事实验证、外部工具调用和长期任务执行等问题。于是,系统开始需要接入检索、工具和多模态能力,并进一步走向更复杂的智能体结构。这正是下一章和后续几编要继续讨论的历史转折。

6. 本章小结

本章讨论了指令微调、对齐与人类反馈学习的数学基础。核心结论是:预训练大模型虽然已经具备强大的语言能力,但要成为真正可用的交互系统,还必须通过额外优化把行为分布塑造成更符合人类意图的形式。SFT 用监督学习建立基本的指令遵循能力,偏好学习用成对比较抽取人类偏好,奖励模型把偏好转成可优化分数,而 RLHF 再用强化学习把这种偏好进一步固化到策略中。

从发展脉络看,这一步非常关键。它意味着大语言模型不再只是“会生成很多内容”,而开始成为“会围绕人类目标调整输出方式”的交互系统。这既是现代助手模型形成的关键步骤,也是通向后续 Agent 系统的必要基础。

关键公式

$$ \mathcal L_{\mathrm{SFT}}(\theta)=-\sum_{(u,y)\in\mathcal S}\sum_{t=1}^{T_y}\log P_\theta\big(y_t\mid u,y_{<t}\big). $$
$$ \mathcal L_{\mathrm{RM}}(\phi)=-\sum_{(u,y^+,y^-)\in\mathcal P}\log \sigma\big(r_\phi(u,y^+)-r_\phi(u,y^-)\big). $$
$$ \max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big]. $$
$$ \max_\theta \mathbb E_{y\sim \pi_\theta(\cdot\mid u)}\big[r_\phi(u,y)\big]-\beta\, D_{\mathrm{KL}}\big(\pi_\theta(\cdot\mid u)\,\|\,\pi_{\mathrm{ref}}(\cdot\mid u)\big). $$

关键概念

  • 指令微调
  • 对齐
  • 偏好学习
  • 奖励模型
  • RLHF
  • 策略分布
  • KL 正则
  • 目标错配
  • 行为塑形
  • 可控性