Skip to content

从 RLHF 到 GRPO:大模型强化学习对齐方法全景调研

覆盖 40+ 篇顶会论文 · NeurIPS / ICML / ICLR / ACL / COLM · 2017–2025
最后更新:2026 年 5 月

一、引言:LLM 对齐的演化主线

大语言模型(LLM)的训练遵循 预训练 → 监督微调(SFT) → 强化学习对齐 三阶段范式。其中,强化学习对齐是使模型从"能说话"变为"说好话"的关键一步——让模型的输出符合人类偏好,做到有用、无害、诚实

从 2017 年 PPO 的提出到 2025 年 GRPO 变体的百花齐放,RL 对齐方法经历了三次范式跃迁:

2017        2019        2022           2023          2024           2025
 │           │           │              │             │              │
PPO ──→ LM+RL ──→ InstructGPT ──→ DPO ──→ GRPO/DeepSeekMath ──→ DeepSeek-R1
         Ziegler     RLHF 三阶段   无需 RM    无需 Critic        RLVR 范式
                     Ouyang et al.  Rafailov   Shao et al.       规则奖励

                                                           DAPO / Dr.GRPO
                                                           λ-GRPO / DisCO

三次范式跃迁

阶段代表方法核心特征模型数量
RLHF 时代 (2019–2023)PPO + 奖励模型需要 4 个模型:策略/参考/奖励/价值4
DPO 时代 (2023–2024)DPO 及其变体无需 RM,离线偏好数据直接优化2
GRPO/RLVR 时代 (2024–)GRPO + 可验证奖励无需 Critic,规则奖励,在线采样2

本综述以 GRPO 为核心,向前追溯 RLHF 与 DPO 的理论基础,向后延伸至 GRPO 变体、RLVR 范式与过程奖励模型(PRM),覆盖 40+ 篇顶会/顶级实验室论文,力求呈现 LLM 强化学习对齐的完整全景。


二、RLHF 基石:从人类偏好到策略优化

2.1 RLHF 三阶段流水线

InstructGPT(Ouyang et al., NeurIPS 2022)首次将 RLHF 工业化,建立了影响深远的三阶段范式:

┌──────────────┐     ┌──────────────┐     ┌──────────────┐
│   Stage 1    │────→│   Stage 2    │────→│   Stage 3    │
│  SFT 微调    │     │ 奖励模型训练  │     │  PPO 优化    │
│  (指令数据)   │     │ (偏好比较对)  │     │ (RL 训练)    │
└──────────────┘     └──────────────┘     └──────────────┘

Bradley-Terry 偏好模型 是奖励模型的理论基础。给定 prompt x 和两个回复 ywyl,偏好概率建模为:

P(ywyl|x)=σ(rϕ(x,yw)rϕ(x,yl))

其中 σ 是 sigmoid 函数,rϕ 是参数化的奖励模型。奖励模型的训练损失为:

LRM=E(x,yw,yl)D[logσ(rϕ(x,yw)rϕ(x,yl))]

InstructGPT 的关键实验结果

  • 1.3B 参数的 InstructGPT 在人类评估中优于 175B 的 GPT-3
  • 标注者对 InstructGPT 的偏好率达 85% vs GPT-3
  • 在 TruthfulQA 上,真实性和信息量均显著提升

2.2 PPO:近端策略优化

PPO(Schulman et al., 2017)是 RLHF 中使用最广泛的策略优化算法。其核心是 裁剪代理目标(Clipped Surrogate Objective)

LCLIP(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1ε,1+ε)A^t)]

其中:

  • rt(θ)=πθ(at|st)πθold(at|st)重要性采样比率
  • A^t 是通过 GAE(Generalized Advantage Estimation) 计算的优势函数
  • ε 是裁剪范围(通常取 0.2)

GAE 通过指数加权 TD 残差平衡偏差与方差:

A^tGAE(γ,λ)=l=0(γλ)lδt+l,δt=rt+γV(st+1)V(st)

PPO 在 LLM 中的适配需要 4 个模型同时运行:

模型作用是否训练
策略模型 πθ生成回复
参考模型 πrefKL 约束基准
奖励模型 rϕ评分
价值模型 Vψ估计基线(GAE)

这 4 个模型的显存占用是 PPO 的最大瓶颈——对于 70B 模型,需要 ~280B 参数同时在 GPU 上。

2.3 早期工作与 RLAIF

Fine-Tuning LMs from Human Preferences(Ziegler et al., NeurIPS 2019)是将 RL 应用于语言模型的开创性工作,首次在文本续写和摘要任务上验证了 reward model + PPO 的可行性。

Constitutional AI(CAI)(Bai et al., Anthropic 2022)提出了 RLAIF(RL from AI Feedback),用 AI 自身替代人类标注者提供偏好反馈:

  1. 用一组"宪法原则"(如无害性规则)指导 AI 自我批评与修正
  2. 用 AI 生成的偏好数据训练奖励模型
  3. 大幅降低人工标注成本,同时提升安全性

三、DPO 家族:从有 RM 到无 RM

3.1 DPO:直接偏好优化

DPO(Direct Preference Optimization)(Rafailov et al., NeurIPS 2023 Oral)是对齐方法的一次重大简化——完全绕过奖励模型训练和 RL 采样,直接在偏好数据上优化策略。

核心推导(5 步):

Step 1:标准 RLHF 目标是在 KL 约束下最大化奖励:

maxπθExD,yπθ(|x)[r(x,y)]βKL(πθπref)

Step 2:该优化问题的闭式最优解为:

π(y|x)=1Z(x)πref(y|x)exp(r(x,y)β)

其中 Z(x)=yπref(y|x)exp(r(x,y)β) 是配分函数。

Step 3:将最优策略反解为隐式奖励:

r(x,y)=βlogπ(y|x)πref(y|x)+βlogZ(x)

Step 4:将隐式奖励代入 Bradley-Terry 模型,配分函数 Z(x) 抵消:

P(ywyl|x)=σ(βlogπ(yw|x)πref(yw|x)βlogπ(yl|x)πref(yl|x))

Step 5:用当前策略 πθ 替换最优策略 π,得到 DPO 损失

LDPO(θ)=E(x,yw,yl)D[logσ(βlogπθ(yw|x)πref(yw|x)βlogπθ(yl|x)πref(yl|x))]

DPO 的优势

  • 无需训练奖励模型
  • 无需在线采样
  • 仅需 2 个模型(策略 + 参考)
  • 计算量与 SFT 相当
  • 实现简单(~20 行核心代码)

实验结果:在摘要任务上与 PPO-RLHF 持平或更优;在 Anthropic HH 对话数据上胜率更高。

3.2 IPO:身份偏好优化

IPO(Identity Preference Optimization)(Azar et al., AISTATS 2024)指出 DPO 隐含假设偏好数据由 Bradley-Terry 模型生成,但实际数据可能不满足此假设。IPO 提出了更一般的 ΨPO 框架,其中 IPO 使用恒等映射替代 BT 模型中的 sigmoid:

LIPO(θ)=E[(logπθ(yw|x)πref(yw|x)logπθ(yl|x)πref(yl|x)12β)2]

IPO 避免了 DPO 在奖励差极大时的过拟合问题,提供了更稳定的训练。

3.3 KTO:前景理论优化

KTO(Kahneman-Tversky Optimization)(Ethayarajh et al., ICML 2024 Spotlight)的革命性创新在于不需要成对偏好数据——仅需知道每条回复是"好"还是"坏"(单侧反馈)。

KTO 基于 Kahneman-Tversky 前景理论,人类的价值函数呈现"损失厌恶"(losses loom larger than gains)的 S 型曲线:

v(z)={zαif z0λ(z)αif z<0

KTO 的损失函数:

LKTO(θ)=Ex,y[w(y)(1vKTO(βrθ(x,y)zref))]

其中 rθ(x,y)=logπθ(y|x)πref(y|x) 是隐式奖励,zref 是参考点(期望奖励)。

关键优势:数据需求更低——不需要为同一 prompt 收集两条回复来做偏好比较。

3.4 ORPO:无参考模型的单阶段对齐

ORPO(Odds Ratio Preference Optimization)(Hong et al., ACL 2024)进一步简化,同时完成 SFT 和对齐,且不需要参考模型

LORPO=LSFTSFT 损失+λLORodds ratio 损失

其中 odds ratio 损失为:

LOR=logσ(logoddsθ(yw|x)oddsθ(yl|x)),oddsθ(y|x)=Pθ(y|x)1Pθ(y|x)

3.5 SimPO:简单偏好优化

SimPO(Simple Preference Optimization)(Meng et al., NeurIPS 2024)在 DPO 基础上做了两个关键改进:

  1. 长度归一化奖励:使用平均 log 概率替代总 log 概率,消除对长回复的偏好:
rSimPO(x,y)=β|y|logπθ(y|x)
  1. 无需参考模型:直接用策略模型计算奖励,免去参考模型的显存开销。

SimPO 损失:

LSimPO=E[logσ(β|yw|logπθ(yw|x)β|yl|logπθ(yl|x)γ)]

其中 γ 是目标奖励差距(target reward margin)。

3.6 DPO vs PPO:谁更好?

"Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study"(Xu et al., ICML 2024)通过大规模对比实验给出了重要结论:

维度DPOPPO
数据需求离线偏好数据在线采样
分布偏移⚠️ 严重(数据与策略分布不匹配)✅ 在线纠正
奖励过优化⚠️ 容易过拟合隐式奖励✅ 有 KL 约束
实现复杂度✅ 简单⚠️ 复杂(4 模型)
最终性能中等更优(当实现正确时)

核心发现:当 PPO 实现得当时,PPO 一致优于 DPO——DPO 的性能瓶颈主要来自分布偏移。

"DPO Meets PPO: Reinforced Token Optimization"(Zhong et al., ICML 2025)提出 RTO 算法,将 DPO 的简单性与 PPO 的在线优势结合——在 token 级别使用 DPO 风格的隐式奖励进行 PPO 优化。

3.7 DPO 家族对比

方法需要偏好对需要参考模型核心创新会议
DPO隐式奖励,绕过 RMNeurIPS 2023
IPO不依赖 BT 模型AISTATS 2024
KTO❌ (单侧)前景理论ICML 2024
ORPOSFT+对齐一体化ACL 2024
SimPO长度归一化奖励NeurIPS 2024

四、GRPO 核心:组内相对优势

4.1 DeepSeekMath 与 GRPO 的诞生

GRPO(Group Relative Policy Optimization)DeepSeekMath(Shao et al., 2024)首次提出,其核心动机是解决 PPO 在 LLM 训练中的两大痛点:

  1. 价值模型(Critic)的显存开销:PPO 需要额外一个与策略模型同等规模的价值模型
  2. 价值模型的训练难度:价值函数的估计偏差直接影响优势估计的质量

GRPO 的核心创新:用组内采样的统计量替代价值模型

算法流程

对每个 prompt q,GRPO:

  1. 组采样:从旧策略 πθold 采样 G 个回复 {o1,o2,,oG}
  2. 奖励计算:对每个回复计算奖励 {r1,r2,,rG}
  3. 组内优势估计
A^i=rimean({r1,,rG})std({r1,,rG})
  1. 策略更新:最大化 GRPO 目标:
JGRPO(θ)=EqD,{oi}πθold[1Gi=1G1|oi|t=1|oi|min(ri,t(θ)A^i,t,clip(ri,t(θ),1ε,1+ε)A^i,t)βDKL(πθπref)]

其中 ri,t(θ)=πθ(oi,t|q,oi,<t)πθold(oi,t|q,oi,<t) 是 token 级重要性采样比率。

KL 散度使用非对称形式:

DKL(πθπref)=πref(oi|q)πθ(oi|q)logπref(oi|q)πθ(oi|q)1

GRPO vs PPO 关键区别

特性PPOGRPO
优势估计GAE(需要 Critic)组内统计量(均值/标准差)
模型数量4(策略/参考/奖励/价值)2(策略/参考)
显存需求~4× 模型大小~2× 模型大小
基线计算学习的价值函数 Vψ(s)组内均值 r¯
KL 约束奖励中加 KL 惩罚损失中加 KL 项

DeepSeekMath 实验结果

  • DeepSeekMath-7B 在 MATH 基准达 51.7%(GRPO),超过所有同规模开源模型
  • GRPO 相比 PPO 节省约 50% 显存
  • 在 competition-level 数学问题上接近 GPT-4 表现

4.2 DeepSeek-R1:GRPO 的规模化成功

DeepSeek-R1(Guo et al., 2025; Nature 2025)将 GRPO 推向了前所未有的规模,在推理能力上匹敌 OpenAI o1。

多阶段训练流程

DeepSeek-V3-Base (671B MoE)


  ┌─────────────┐
  │ 冷启动 SFT  │  数千条长 CoT 数据
  └──────┬──────┘

  ┌─────────────┐
  │  RL Stage 1 │  GRPO + 规则奖励
  │  (推理 RL)  │  准确性 + 格式奖励
  └──────┬──────┘

  ┌─────────────┐
  │ 拒绝采样 SFT│  收集 RL 模型的最佳输出
  │  + 通用 SFT │  + 写作/翻译等数据
  └──────┬──────┘

  ┌─────────────┐
  │  RL Stage 2 │  GRPO + 多种奖励
  │ (全场景 RL) │  有用性 + 无害性 + 格式
  └─────────────┘

R1-Zero:纯 RL 的 "Aha Moment"

DeepSeek-R1-Zero 是一个革命性实验——直接在 base model 上应用 GRPO,不经过任何 SFT。结果发现模型自发涌现了:

  • 自我反思("Wait, let me reconsider...")
  • 长链思维(CoT 从数百到数千 token)
  • 验证与纠错
  • "Aha moment":模型学会重新审视自己的推理过程

奖励函数设计(规则奖励,无需 RM):

  • 准确性奖励:答案是否正确(数学题可自动验证)
  • 格式奖励:输出是否包含 <think>...</think> 标签

R1 的实验结果

基准DeepSeek-R1OpenAI o1-1217Claude 3.5
AIME 202479.8%79.2%16.0%
MATH-50097.3%96.4%78.3%
MMLU90.8%91.8%88.3%
GPQA Diamond71.5%75.7%65.0%
LiveCodeBench65.9%63.4%33.4%

4.3 Kimi k1.5:扩展 RL 的边界

Kimi k1.5(Moonshot AI, 2025)提出了若干工程创新来扩展 LLM RL 训练:

  1. 长上下文 RL:支持 128K 上下文窗口的 RL 训练
  2. 在线 Mirror Descent:替代 PPO 的裁剪机制,提供更好的理论保证
  3. 多模态 RL:同时在文本和视觉任务上进行 RL 训练
  4. 课程学习:从简单题目逐步过渡到困难题目

五、GRPO 变体:修复偏差与提升稳定性

GRPO 在 DeepSeek-R1 中的成功引发了大量改进工作。本节系统梳理 8 个 GRPO 变体,分析各自解决的问题与贡献。

5.1 DAPO:解耦裁剪与动态采样

DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)(Yu et al., ByteDance Seed, NeurIPS 2025)是对 GRPO 最全面的改进,包含 4 项关键技术

技术 1:Clip-Higher(非对称裁剪)

vanilla GRPO 使用对称裁剪 [1ε,1+ε]。DAPO 发现这限制了低概率 token 的探索空间,导致熵坍缩(entropy collapse)。解决方案是使用非对称裁剪:

clip(ri,t,1εlow,1+εhigh),εlow<εhigh

例如 εlow=0.2,εhigh=0.28,给予上升方向更大空间。

技术 2:Dynamic Sampling(动态采样)

过滤掉奖励全为 0 或全为 1 的 prompt 组——这些组的优势为零,不产生梯度信号:

filter:0<|{oiis_correct(oi)}|<G

通过动态补充有效 prompt,确保每个 batch 都有足够的梯度信号。

技术 3:Token-level Loss(token 级损失)

GRPO 使用序列级损失归一化(除以 |oi|),这导致长序列和短序列的贡献不均衡。DAPO 改用 token 级归一化——所有 token 的损失平等求和后除以总 token 数:

JDAPO=1i=1G|oi|i=1Gt=1|oi|min(ri,tA^i,t,clip(ri,t,1εlow,1+εhigh)A^i,t)

技术 4:去除 KL 损失

DAPO 移除了 KL 散度惩罚项,因为在长 CoT 场景中 KL 约束过于保守,限制了模型探索。

实验结果:使用 Qwen2.5-32B,DAPO 在 AIME 2024 上达到 50% 准确率,超越 DeepSeek-R1-Zero(同 base model),且训练步数减少 50%。

5.2 Dr. GRPO:GRPO Done Right

Dr. GRPO(Liu et al., COLM 2025)从理论层面识别并修复了 GRPO 的两个系统性偏差:

偏差 1:长度偏差(Length Bias)

GRPO 的序列级归一化 1|oi| 导致:

  • 错误但冗长的回复的每个 token 获得更大梯度(因为总损失被短长度稀释程度更小)
  • 模型被鼓励生成更长的回复,即使是错误的

偏差 2:难度偏差(Difficulty Bias)

标准差归一化 1std(r) 导致:

  • 简单题(全对或全错,低方差)的优势被放大
  • 困难题(部分对,高方差)反而被低估——但这恰恰是最有价值的学习信号

Dr. GRPO 修复:同时移除 1|oi|std(r)

JDr.GRPO(θ)=k=1Kt=1|ok|ρ^k,t(θ)(rkE[rk])

其中 ρ^k,t 是裁剪后的重要性采样比率。

实验结果:使用 Qwen2.5-1.5B 在 AIME 2024 上:

  • Dr. GRPO 比 GRPO 更快收敛
  • 生成更短的回复(尤其是错误回复更短)
  • 达到 43.3% 准确率(7B 模型),创当时 SOTA

5.3 λ-GRPO:可学习的 token 偏好

λ-GRPO(Wang et al., 2025)提出了一个统一框架,将 GRPO、DAPO、Dr.GRPO 统一为一个公式,并引入可学习参数 λ 控制 token 级加权:

Jλ-GRPO=i=1G1|oi|λt=1|oi|min(ri,tA^i,t,clip(ri,t)A^i,t)

λ=1 时退化为 GRPO;λ=0 时退化为 Dr.GRPO/DAPO。

关键洞察:让模型自己学习最优的 token 加权方式,而非使用人工启发式。

实验结果:在 Qwen2.5 系列模型上:

  • λ-GRPO 比 GRPO 提升 +1.9%(1.5B)/ +1.0%(3B)/ +1.7%(7B)
  • 比 DAPO 维持更高的 token 级熵,训练更稳定

5.4 REINFORCE++

REINFORCE++(Hu, 2024)揭示了 GRPO 与经典 REINFORCE 算法的深层联系:

GRPO 的优势估计本质上是 REINFORCE with baseline 的一个特例——基线是组内均值。REINFORCE++ 进一步简化,去除 PPO 的裁剪机制,使用更简洁的策略梯度:

θJ=E[i=1G(rir¯)θlogπθ(oi|q)]

5.5 DisCO:判别式约束优化

DisCO(Discriminative Constrained Optimization)(NeurIPS 2025)从根本上重新设计了 GRPO 的目标函数:

  1. 判别式目标替代组相对目标——直接最大化正确回复与错误回复的概率差
  2. 约束优化替代 KL 惩罚——更精确地控制策略偏移
  3. 使用非裁剪代理——避免裁剪带来的梯度消失

实验结果:DisCO 声称比 GRPO 提升 +7%,比 DAPO 提升 +6%

5.6 Spectral PO:处理全负组

Spectral Policy Optimization(ICML 2025)解决了 GRPO 的一个关键盲点——当所有采样回复都是错误的时:

  • vanilla GRPO:所有优势为负,模型只是在"选最不差的",学习信号微弱
  • Spectral PO:引入 AI 反馈增加负面组的回复多样性,提供有效梯度信号
  • 理论分析了多样化策略的收敛性

5.7 其他变体

NGRPO(Negative-enhanced GRPO)(Nan & Chen, 2025):将全负组中的同质化错误转化为鲁棒学习信号,增强模型从失败中学习的能力。

Off-policy GRPO(OpenReview 2025):将 GRPO 扩展到离线策略设置,使用经验回放缓冲区中的历史数据,减少在线采样的计算开销。

5.8 GRPO 变体对比总览

方法修复的偏差核心改动性能提升会议
GRPO基线方法arXiv 2024
DAPO熵坍缩 + 无效梯度非对称裁剪 + 动态采样 + token 级损失 + 去 KLAIME +50% (Qwen-32B)NeurIPS 2025
Dr. GRPO长度偏差 + 难度偏差去除 1/|oi| 和 std 归一化更短更准COLM 2025
λ-GRPO固定 token 加权可学习参数 λ+1.0~1.9%arXiv 2025
REINFORCE++过度复杂去除裁剪,纯策略梯度简化实现arXiv 2024
DisCO组相对目标局限判别式 + 约束优化+7% vs GRPONeurIPS 2025
Spectral PO全负组无信号AI 反馈多样化困难题提升ICML 2025
GRPO 变体演化关系图
━━━━━━━━━━━━━━━━━━━━━━
                    GRPO (DeepSeekMath, 2024)

          ┌──────────┼──────────┬──────────┐
          ▼          ▼          ▼          ▼
       DAPO     Dr. GRPO   REINFORCE++  DisCO
     (4项改进)  (去偏差)    (简化)     (判别式)
          │          │
          └────┬─────┘

           λ-GRPO
         (统一框架)

六、RLVR:可验证奖励的崛起

6.1 从 RLHF 到 RLVR 的范式转变

RLVR(Reinforcement Learning with Verifiable Rewards) 代表了 RL 对齐的一个重要范式转变:

RLHFRLVR
奖励来源人类偏好 → 奖励模型规则/程序自动验证
适用任务通用对话、写作数学、代码、逻辑推理
标注成本高(需人类标注)低(自动化)
奖励准确性受 RM 偏差影响精确(ground truth)
扩展性受限于标注规模几乎无限

DeepSeek-R1 的成功很大程度上归功于 RLVR——使用数学正确性和代码执行结果作为奖励,无需任何人类标注。

6.2 RLVR 的边界与局限

"Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?"(Yue et al., 2025)是一篇至关重要的反思性论文,对 RLVR 的能力边界提出了深刻质疑。

核心发现(通过 pass@k 分析):

pass@k 性能对比 (示意)

100%|
    |    RL模型
    |   ╱
    |  ╱         Base模型
    | ╱         ╱
    |╱    ─────╱
    |────╱
    |───╱
  0%└──────────────────────
    k=1     k=64    k=256
  1. 小 k 时 RL 模型更优:RLVR 显著提升 pass@1(从 30% → 60%+)
  2. 大 k 时 base model 反超:pass@256 时,base model 的覆盖率更高
  3. 所有 RL 模型的正确解都已存在于 base model 的分布中

结论:RLVR 提升的是采样效率(sampling efficiency),而非推理能力(reasoning capacity)。它让模型更快找到正确答案,但缩小了解空间。

与蒸馏的对比:蒸馏可以引入 base model 原本不具备的推理能力(真正的能力扩展),而 RLVR 只是优化已有能力的利用效率。

6.3 ExPO:引导式探索

ExPO(Exploration via Self-Explanation)(NeurIPS 2025)针对 GRPO 在困难问题上的失效——当所有采样都错误时无法学习:

  • 引入自解释机制:让模型解释为什么某些步骤是错误的
  • 利用解释生成引导式探索,突破全负组的困境

6.4 Tülu 3:开源后训练流水线

Tülu 3(AI2, 2024)提供了完整的开源后训练流水线,系统验证了 SFT → DPO → RLVR 的组合效果:

  • 在 Llama 3.1 8B/70B 上验证
  • RLVR 阶段使用 GRPO + 规则奖励
  • 开源所有代码、数据和模型权重

6.5 BNF:双向负反馈

BNF(Bidirectional Negative Feedback)(ICLR 2025)提出了一种替代 DPO 的新范式:

  • 不需要成对对比损失
  • 使用双向负反馈信号稳定训练
  • 在数学数据集上比 DPO 更稳定

七、奖励模型:从 ORM 到 PRM

奖励模型是 RL 对齐的核心组件。根据奖励的粒度,可分为:

  • ORM(Outcome Reward Model):仅对最终结果评分
  • PRM(Process Reward Model):对推理的每一步评分

7.1 Let's Verify Step by Step(PRM800K)

Lightman et al.(OpenAI, ICLR 2024) 系统比较了 PRM 与 ORM:

方法MATH Best-of-1860
Majority Voting69.6%
ORM72.4%
PRM78.2%

PRM 评分每步独立判断:

score(solution)=i=1Tpθ(stepi correctq,step<i)

论文释放了 PRM800K——80 万条 step-level 人工标注数据,成为 PRM 研究的基础数据集。

7.2 Math-Shepherd:自动过程监督

Math-Shepherd(Wang et al., ACL 2024)解决了 PRM 依赖昂贵人工标注的瓶颈,使用 Monte Carlo 估计自动生成 step-level 标签:

对部分解 s1:i,用 completer 策略 πc 进行 N 次 rollout:

  • 硬标签ysiHE=I[j:aj=a]
  • 软标签ysiSE=1Nj=1NI[aj=a]

无需任何人工步级标注,大幅降低了 PRM 的构建成本。

7.3 Generative Verifiers

Generative Verifiers(Zhang et al., Google, ICLR 2025)提出了生成式奖励模型

  • 传统 RM 在最后一层加分类头打分
  • 生成式 RM 通过下一个 token 预测来验证:生成 CoT 解释后输出 "correct" 或 "incorrect"
  • 优势:更好的泛化性、可解释性、对分布偏移的鲁棒性

7.4 Implicit PRM

Implicit PRM(ICML 2025)的突破性贡献:仅用结果标签训练出过程奖励模型

核心思想:将结果奖励参数化为对数似然比:

routcome(q,s1:T)=logpθ(correctq,s1:T)pθ(correctq)

然后通过分解得到每一步的隐式过程奖励。

惊人结果:仅用 ORM 标签,性能超越 Math-Shepherd,且只需 1/38 的训练数据。

7.5 其他 PRM 工作

VersaPRM(ICML 2025 Spotlight)将 PRM 扩展到多领域——不仅限于数学,还覆盖法律、生物等领域,使用合成推理数据训练。

PQM(Process Reward Model with Q-value Rankings)(Li & Li, ICLR 2025)将 PRM 建模为 MDP,使用 Q 值排序损失替代交叉熵,更好地建模步骤间依赖关系。

7.6 奖励模型对比

方法奖励粒度需要步级标注核心创新会议
ORM结果级基线方法
PRM (PRM800K)步骤级✅ (人工)首次大规模验证 PRM > ORMICLR 2024
Math-Shepherd步骤级❌ (MC 估计)自动标注ACL 2024
Generative Verifier步骤级CoT 验证生成ICLR 2025
Implicit PRM步骤级❌ (结果标签)隐式分解ICML 2025
VersaPRM步骤级❌ (合成)多领域泛化ICML 2025
PQM步骤级Q 值排序ICLR 2025

八、自博弈与自奖励

8.1 Self-Rewarding Language Models

Self-Rewarding LMs(Yuan et al., Meta, ICML 2024)提出了一个激进的想法——让模型自己当 judge

  1. 模型生成回复
  2. 模型自己评判回复质量(LLM-as-a-Judge)
  3. 基于自评生成偏好数据
  4. 使用 DPO 在自生成的偏好数据上训练
  5. 迭代重复

关键发现:性能随迭代次数持续提升(M1 → M2 → M3),在 AlpacaEval 2.0 上从 9.94% → 15.38% → 20.44%。

理论限制:自奖励机制受限于模型自身的判断能力——如果模型无法区分好坏回复,自我提升将停滞。

8.2 SPIN:自博弈微调

SPIN(Self-Play Fine-Tuning)(Chen et al., ICML 2024)借鉴了博弈论中的自博弈思想:

  • 主玩家(当前模型)学习区分自己上一轮生成的回复和人类标注回复
  • 对手玩家(上一轮模型)生成"假"回复
  • 迭代训练,直到模型分布与数据分布一致

数学保证:全局最优当且仅当模型策略 = 数据分布

minθmaxθExD[Eypdata[logdθ(x,y)]+Eyπθ[log(1dθ(x,y))]]

优势:不需要人类偏好数据或更强模型的反馈。

8.3 Online Iterative RLHF

Online Iterative RLHF(Xiong et al., ICML 2024)解决 DPO 的分布偏移问题:

  • 每个 epoch 重新生成回复(在线采样)
  • 使用学到的奖励模型重新评估
  • 迭代 DPO 训练

这桥接了 DPO(离线、简单但有分布偏移)和 PPO(在线、复杂但无分布偏移)之间的鸿沟。


九、安全对齐与前沿

9.1 RePO:安全对齐的校正策略优化

RePO(Rectified Policy Optimization)(NeurIPS 2025)针对安全对齐中的"安全补偿"问题:

  • 标准 RLHF 在期望意义上优化安全性,但单个 prompt 仍可能生成有害回复
  • RePO 使用逐 prompt 的安全约束(而非期望约束)
  • 校正策略梯度,确保在提升有用性的同时不牺牲安全性

9.2 数据选择:Less is More

"Less is More: Improving LLM Alignment via Preference Data Selection"(Deng et al., NeurIPS 2025)验证了偏好数据的质量远比数量重要

  • 精选子集训练效果优于全量数据
  • 提出基于影响函数的数据选择方法

9.3 LarPO:对齐即检索

LarPO(ICML 2025)将 LLM 对齐映射到信息检索范式:

  • 将策略优化视为检索-重排序问题
  • 在 AlpacaEval 2.0 上提升 +38.9%

十、全景对比与未来方向

10.1 算法全景对比

方法类型RM在线采样模型数显存适用场景会议
PPORLHF4极高通用arXiv 2017
DPO偏好2离线偏好NeurIPS 2023
IPO偏好2非 BT 偏好AISTATS 2024
KTO偏好2单侧反馈ICML 2024
ORPO偏好1极低SFT+对齐ACL 2024
SimPO偏好1极低无参考模型NeurIPS 2024
GRPORLVR可选2可验证任务arXiv 2024
DAPORLVR可选2长 CoTNeurIPS 2025
Dr.GRPORLVR可选2数学推理COLM 2025

10.2 算法选型决策树

                     你的任务是什么?

              ┌──────────┼──────────┐
              ▼          ▼          ▼
          可验证      有偏好数据    通用对话
        (数学/代码)   (成对比较)   (无明确信号)
              │          │          │
              ▼          ▼          ▼
         GRPO/DAPO    有在线资源?   PPO+RM
              │          │
              │     ┌────┼────┐
              │     ▼         ▼
              │   是:        否:
              │   Online DPO  DPO/SimPO

         ┌────┼────────┐
         ▼              ▼
     长 CoT            短回复
     DAPO           Dr.GRPO

10.3 开放问题与未来方向

1. RLVR 的能力边界

  • Yue et al. 证明 RLVR 不扩展推理能力,仅提升采样效率
  • 如何让 RL 真正扩展模型能力?蒸馏 vs RL 的互补关系?

2. 奖励模型的泛化性

  • PRM 主要验证于数学领域
  • VersaPRM 的多领域尝试仍处于早期
  • 通用的过程监督方案仍然缺失

3. 规模化与效率

  • DeepSeek-R1 使用 671B MoE 模型 + 数千 GPU
  • 如何在小模型/少资源场景下实现有效 RL?
  • 离线 GRPO(Off-policy GRPO)的探索

4. 安全性与可控性

  • RLVR 的优化可能与安全性目标冲突
  • 多目标 RL(有用 + 无害 + 诚实)的平衡
  • RePO 等安全约束方法的扩展

5. 自我提升的极限

  • Self-Rewarding / SPIN 受限于模型自身能力
  • 如何突破自我提升的天花板?
  • 与外部验证器/工具使用的结合

6. 长链推理的训练稳定性

  • DAPO 的熵坍缩问题
  • Spectral PO 的全负组问题
  • 如何在训练中保持探索多样性?

十一、参考文献

RLHF 基石

  1. [InstructGPT] Ouyang, L., Wu, J., Jiang, X., et al. "Training language models to follow instructions with human feedback." NeurIPS, 2022.

  2. [PPO] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. "Proximal Policy Optimization Algorithms." arXiv:1707.06347, 2017.

  3. [CAI] Bai, Y., Kadavath, S., Kundu, S., et al. "Constitutional AI: Harmlessness from AI Feedback." arXiv:2212.08073, 2022.

  4. [Ziegler et al.] Ziegler, D. M., Stiennon, N., Wu, J., et al. "Fine-Tuning Language Models from Human Preferences." NeurIPS, 2019.

DPO 家族

  1. [DPO] Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., Finn, C. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model." NeurIPS, 2023. (Oral)

  2. [IPO/ΨPO] Azar, M. G., Rowland, M., Piot, B., et al. "A General Theoretical Paradigm to Understand Learning from Human Feedback." AISTATS, 2024.

  3. [KTO] Ethayarajh, K., Xu, W., Muennighoff, N., Jurafsky, D., Kiela, D. "KTO: Model Alignment as Prospect Theoretic Optimization." ICML, 2024. (Spotlight)

  4. [ORPO] Hong, J., Lee, N., Thorne, J. "ORPO: Monolithic Preference Optimization without Reference Model." ACL, 2024.

  5. [SimPO] Meng, Y., Xia, M., Chen, D. "SimPO: Simple Preference Optimization with a Reference-Free Reward." NeurIPS, 2024.

  6. [DPO vs PPO] Xu, S., Fu, W., Gao, J., et al. "Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study." ICML, 2024.

  7. [RTO] Zhong, H., et al. "DPO Meets PPO: Reinforced Token Optimization for RLHF." ICML, 2025.

GRPO 核心

  1. [DeepSeekMath/GRPO] Shao, Z., Wang, P., Zhu, Q., et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv:2402.03300, 2024.

  2. [DeepSeek-R1] Guo, D., Yang, D., Zhang, H., et al. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." Nature, 2025.

  3. [Kimi k1.5] Kimi Team. "Kimi k1.5: Scaling Reinforcement Learning with LLMs." arXiv:2501.12599, 2025.

GRPO 变体

  1. [DAPO] Yu, Q., Zhang, Z., Zhu, R., et al. "DAPO: An Open-Source LLM Reinforcement Learning System at Scale." NeurIPS, 2025.

  2. [Dr. GRPO] Liu, Z., Chen, C., Li, W., et al. "Understanding R1-Zero-Like Training: A Critical Perspective." COLM, 2025.

  3. [λ-GRPO] Wang, Y., Zhao, J., Zhao, C., Guan, S., Penn, G., Liu, S. "λ-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences." arXiv:2510.06870, 2025.

  4. [REINFORCE++] Hu, J. "REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models." arXiv:2409.09849, 2024.

  5. [DisCO] "DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization." NeurIPS, 2025.

  6. [Spectral PO] "Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO." ICML, 2025.

  7. [NGRPO] Nan, F., Chen, Y. "NGRPO: Negative-enhanced Group Relative Policy Optimization." arXiv, 2025.

  8. [Off-policy GRPO] "Off-policy GRPO: Revisiting Group Relative Policy Optimization." OpenReview, 2025.

RLVR

  1. [Limit of RLVR] Yue, Y., et al. "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?" 2025.

  2. [ExPO] "ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided RL." NeurIPS, 2025.

  3. [BNF] "BNF: As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss." ICLR, 2025.

  4. [Tülu 3] Ivison, H., Wang, Y., et al. "Tülu 3: Pushing Frontiers in Open Language Model Post-Training." arXiv:2411.15124, 2024.

奖励模型与过程监督

  1. [PRM800K] Lightman, H., Kosaraju, V., Burda, Y., et al. "Let's Verify Step by Step." ICLR, 2024.

  2. [Math-Shepherd] Wang, P., Li, L., Shao, Z., et al. "Math-Shepherd: Verify and Reinforce LLMs Step-by-Step without Human Annotations." ACL, 2024.

  3. [Generative Verifiers] Zhang, D., et al. "Generative Verifiers: Reward Modeling as Next-Token Prediction." ICLR, 2025.

  4. [Implicit PRM] "Implicit Process Reward Models: Training Process Reward Models from Outcome Labels." ICML, 2025.

  5. [VersaPRM] "VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data." ICML, 2025. (Spotlight)

  6. [PQM] Li, W., Li, Y. "Process Reward Model with Q-value Rankings." ICLR, 2025.

自博弈与自奖励

  1. [Self-Rewarding] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., Weston, J. "Self-Rewarding Language Models." ICML, 2024.

  2. [SPIN] Chen, Z., Deng, Y., Yuan, H., Ji, K., Gu, Q. "Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models." ICML, 2024.

  3. [Online Iterative RLHF] Xiong, W., et al. "Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint." ICML, 2024.

安全对齐与前沿

  1. [RePO] "RePO: Enhancing Safety in RLHF via Rectified Policy Optimization." NeurIPS, 2025.

  2. [LarPO] "LarPO: LLM Alignment as Retriever Preference Optimization." ICML, 2025.

  3. [Less is More] Deng, X., et al. "Less is More: Improving LLM Alignment via Preference Data Selection." NeurIPS, 2025.

  4. [RL Survey] "Reinforcement Learning for Reasoning in Large Language Models: A Survey." arXiv, 2024.

  5. [RLVR-World] Wu, J., et al. "RLVR-World: Training World Models with Reinforcement Learning." NeurIPS, 2025.

基于公开论文整理