主题
从 RLHF 到 GRPO:大模型强化学习对齐方法全景调研
覆盖 40+ 篇顶会论文 · NeurIPS / ICML / ICLR / ACL / COLM · 2017–2025
最后更新:2026 年 5 月
最后更新:2026 年 5 月
一、引言:LLM 对齐的演化主线
大语言模型(LLM)的训练遵循 预训练 → 监督微调(SFT) → 强化学习对齐 三阶段范式。其中,强化学习对齐是使模型从"能说话"变为"说好话"的关键一步——让模型的输出符合人类偏好,做到有用、无害、诚实。
从 2017 年 PPO 的提出到 2025 年 GRPO 变体的百花齐放,RL 对齐方法经历了三次范式跃迁:
2017 2019 2022 2023 2024 2025
│ │ │ │ │ │
PPO ──→ LM+RL ──→ InstructGPT ──→ DPO ──→ GRPO/DeepSeekMath ──→ DeepSeek-R1
Ziegler RLHF 三阶段 无需 RM 无需 Critic RLVR 范式
Ouyang et al. Rafailov Shao et al. 规则奖励
│
DAPO / Dr.GRPO
λ-GRPO / DisCO三次范式跃迁:
| 阶段 | 代表方法 | 核心特征 | 模型数量 |
|---|---|---|---|
| RLHF 时代 (2019–2023) | PPO + 奖励模型 | 需要 4 个模型:策略/参考/奖励/价值 | 4 |
| DPO 时代 (2023–2024) | DPO 及其变体 | 无需 RM,离线偏好数据直接优化 | 2 |
| GRPO/RLVR 时代 (2024–) | GRPO + 可验证奖励 | 无需 Critic,规则奖励,在线采样 | 2 |
本综述以 GRPO 为核心,向前追溯 RLHF 与 DPO 的理论基础,向后延伸至 GRPO 变体、RLVR 范式与过程奖励模型(PRM),覆盖 40+ 篇顶会/顶级实验室论文,力求呈现 LLM 强化学习对齐的完整全景。
二、RLHF 基石:从人类偏好到策略优化
2.1 RLHF 三阶段流水线
InstructGPT(Ouyang et al., NeurIPS 2022)首次将 RLHF 工业化,建立了影响深远的三阶段范式:
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Stage 1 │────→│ Stage 2 │────→│ Stage 3 │
│ SFT 微调 │ │ 奖励模型训练 │ │ PPO 优化 │
│ (指令数据) │ │ (偏好比较对) │ │ (RL 训练) │
└──────────────┘ └──────────────┘ └──────────────┘Bradley-Terry 偏好模型 是奖励模型的理论基础。给定 prompt
其中
InstructGPT 的关键实验结果:
- 1.3B 参数的 InstructGPT 在人类评估中优于 175B 的 GPT-3
- 标注者对 InstructGPT 的偏好率达 85% vs GPT-3
- 在 TruthfulQA 上,真实性和信息量均显著提升
2.2 PPO:近端策略优化
PPO(Schulman et al., 2017)是 RLHF 中使用最广泛的策略优化算法。其核心是 裁剪代理目标(Clipped Surrogate Objective):
其中:
是重要性采样比率 是通过 GAE(Generalized Advantage Estimation) 计算的优势函数 是裁剪范围(通常取 0.2)
GAE 通过指数加权 TD 残差平衡偏差与方差:
PPO 在 LLM 中的适配需要 4 个模型同时运行:
| 模型 | 作用 | 是否训练 |
|---|---|---|
| 策略模型 | 生成回复 | ✅ |
| 参考模型 | KL 约束基准 | ❌ |
| 奖励模型 | 评分 | ❌ |
| 价值模型 | 估计基线(GAE) | ✅ |
这 4 个模型的显存占用是 PPO 的最大瓶颈——对于 70B 模型,需要 ~280B 参数同时在 GPU 上。
2.3 早期工作与 RLAIF
Fine-Tuning LMs from Human Preferences(Ziegler et al., NeurIPS 2019)是将 RL 应用于语言模型的开创性工作,首次在文本续写和摘要任务上验证了 reward model + PPO 的可行性。
Constitutional AI(CAI)(Bai et al., Anthropic 2022)提出了 RLAIF(RL from AI Feedback),用 AI 自身替代人类标注者提供偏好反馈:
- 用一组"宪法原则"(如无害性规则)指导 AI 自我批评与修正
- 用 AI 生成的偏好数据训练奖励模型
- 大幅降低人工标注成本,同时提升安全性
三、DPO 家族:从有 RM 到无 RM
3.1 DPO:直接偏好优化
DPO(Direct Preference Optimization)(Rafailov et al., NeurIPS 2023 Oral)是对齐方法的一次重大简化——完全绕过奖励模型训练和 RL 采样,直接在偏好数据上优化策略。
核心推导(5 步):
Step 1:标准 RLHF 目标是在 KL 约束下最大化奖励:
Step 2:该优化问题的闭式最优解为:
其中
Step 3:将最优策略反解为隐式奖励:
Step 4:将隐式奖励代入 Bradley-Terry 模型,配分函数
Step 5:用当前策略
DPO 的优势:
- 无需训练奖励模型
- 无需在线采样
- 仅需 2 个模型(策略 + 参考)
- 计算量与 SFT 相当
- 实现简单(~20 行核心代码)
实验结果:在摘要任务上与 PPO-RLHF 持平或更优;在 Anthropic HH 对话数据上胜率更高。
3.2 IPO:身份偏好优化
IPO(Identity Preference Optimization)(Azar et al., AISTATS 2024)指出 DPO 隐含假设偏好数据由 Bradley-Terry 模型生成,但实际数据可能不满足此假设。IPO 提出了更一般的
IPO 避免了 DPO 在奖励差极大时的过拟合问题,提供了更稳定的训练。
3.3 KTO:前景理论优化
KTO(Kahneman-Tversky Optimization)(Ethayarajh et al., ICML 2024 Spotlight)的革命性创新在于不需要成对偏好数据——仅需知道每条回复是"好"还是"坏"(单侧反馈)。
KTO 基于 Kahneman-Tversky 前景理论,人类的价值函数呈现"损失厌恶"(losses loom larger than gains)的 S 型曲线:
KTO 的损失函数:
其中
关键优势:数据需求更低——不需要为同一 prompt 收集两条回复来做偏好比较。
3.4 ORPO:无参考模型的单阶段对齐
ORPO(Odds Ratio Preference Optimization)(Hong et al., ACL 2024)进一步简化,同时完成 SFT 和对齐,且不需要参考模型:
其中 odds ratio 损失为:
3.5 SimPO:简单偏好优化
SimPO(Simple Preference Optimization)(Meng et al., NeurIPS 2024)在 DPO 基础上做了两个关键改进:
- 长度归一化奖励:使用平均 log 概率替代总 log 概率,消除对长回复的偏好:
- 无需参考模型:直接用策略模型计算奖励,免去参考模型的显存开销。
SimPO 损失:
其中
3.6 DPO vs PPO:谁更好?
"Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study"(Xu et al., ICML 2024)通过大规模对比实验给出了重要结论:
| 维度 | DPO | PPO |
|---|---|---|
| 数据需求 | 离线偏好数据 | 在线采样 |
| 分布偏移 | ⚠️ 严重(数据与策略分布不匹配) | ✅ 在线纠正 |
| 奖励过优化 | ⚠️ 容易过拟合隐式奖励 | ✅ 有 KL 约束 |
| 实现复杂度 | ✅ 简单 | ⚠️ 复杂(4 模型) |
| 最终性能 | 中等 | 更优(当实现正确时) |
核心发现:当 PPO 实现得当时,PPO 一致优于 DPO——DPO 的性能瓶颈主要来自分布偏移。
"DPO Meets PPO: Reinforced Token Optimization"(Zhong et al., ICML 2025)提出 RTO 算法,将 DPO 的简单性与 PPO 的在线优势结合——在 token 级别使用 DPO 风格的隐式奖励进行 PPO 优化。
3.7 DPO 家族对比
| 方法 | 需要偏好对 | 需要参考模型 | 核心创新 | 会议 |
|---|---|---|---|---|
| DPO | ✅ | ✅ | 隐式奖励,绕过 RM | NeurIPS 2023 |
| IPO | ✅ | ✅ | 不依赖 BT 模型 | AISTATS 2024 |
| KTO | ❌ (单侧) | ✅ | 前景理论 | ICML 2024 |
| ORPO | ✅ | ❌ | SFT+对齐一体化 | ACL 2024 |
| SimPO | ✅ | ❌ | 长度归一化奖励 | NeurIPS 2024 |
四、GRPO 核心:组内相对优势
4.1 DeepSeekMath 与 GRPO 的诞生
GRPO(Group Relative Policy Optimization) 由 DeepSeekMath(Shao et al., 2024)首次提出,其核心动机是解决 PPO 在 LLM 训练中的两大痛点:
- 价值模型(Critic)的显存开销:PPO 需要额外一个与策略模型同等规模的价值模型
- 价值模型的训练难度:价值函数的估计偏差直接影响优势估计的质量
GRPO 的核心创新:用组内采样的统计量替代价值模型。
算法流程
对每个 prompt
- 组采样:从旧策略
采样 个回复 - 奖励计算:对每个回复计算奖励
- 组内优势估计:
- 策略更新:最大化 GRPO 目标:
其中
KL 散度使用非对称形式:
GRPO vs PPO 关键区别
| 特性 | PPO | GRPO |
|---|---|---|
| 优势估计 | GAE(需要 Critic) | 组内统计量(均值/标准差) |
| 模型数量 | 4(策略/参考/奖励/价值) | 2(策略/参考) |
| 显存需求 | ~4× 模型大小 | ~2× 模型大小 |
| 基线计算 | 学习的价值函数 | 组内均值 |
| KL 约束 | 奖励中加 KL 惩罚 | 损失中加 KL 项 |
DeepSeekMath 实验结果
- DeepSeekMath-7B 在 MATH 基准达 51.7%(GRPO),超过所有同规模开源模型
- GRPO 相比 PPO 节省约 50% 显存
- 在 competition-level 数学问题上接近 GPT-4 表现
4.2 DeepSeek-R1:GRPO 的规模化成功
DeepSeek-R1(Guo et al., 2025; Nature 2025)将 GRPO 推向了前所未有的规模,在推理能力上匹敌 OpenAI o1。
多阶段训练流程
DeepSeek-V3-Base (671B MoE)
│
▼
┌─────────────┐
│ 冷启动 SFT │ 数千条长 CoT 数据
└──────┬──────┘
▼
┌─────────────┐
│ RL Stage 1 │ GRPO + 规则奖励
│ (推理 RL) │ 准确性 + 格式奖励
└──────┬──────┘
▼
┌─────────────┐
│ 拒绝采样 SFT│ 收集 RL 模型的最佳输出
│ + 通用 SFT │ + 写作/翻译等数据
└──────┬──────┘
▼
┌─────────────┐
│ RL Stage 2 │ GRPO + 多种奖励
│ (全场景 RL) │ 有用性 + 无害性 + 格式
└─────────────┘R1-Zero:纯 RL 的 "Aha Moment"
DeepSeek-R1-Zero 是一个革命性实验——直接在 base model 上应用 GRPO,不经过任何 SFT。结果发现模型自发涌现了:
- 自我反思("Wait, let me reconsider...")
- 长链思维(CoT 从数百到数千 token)
- 验证与纠错
- "Aha moment":模型学会重新审视自己的推理过程
奖励函数设计(规则奖励,无需 RM):
- 准确性奖励:答案是否正确(数学题可自动验证)
- 格式奖励:输出是否包含
<think>...</think>标签
R1 的实验结果
| 基准 | DeepSeek-R1 | OpenAI o1-1217 | Claude 3.5 |
|---|---|---|---|
| AIME 2024 | 79.8% | 79.2% | 16.0% |
| MATH-500 | 97.3% | 96.4% | 78.3% |
| MMLU | 90.8% | 91.8% | 88.3% |
| GPQA Diamond | 71.5% | 75.7% | 65.0% |
| LiveCodeBench | 65.9% | 63.4% | 33.4% |
4.3 Kimi k1.5:扩展 RL 的边界
Kimi k1.5(Moonshot AI, 2025)提出了若干工程创新来扩展 LLM RL 训练:
- 长上下文 RL:支持 128K 上下文窗口的 RL 训练
- 在线 Mirror Descent:替代 PPO 的裁剪机制,提供更好的理论保证
- 多模态 RL:同时在文本和视觉任务上进行 RL 训练
- 课程学习:从简单题目逐步过渡到困难题目
五、GRPO 变体:修复偏差与提升稳定性
GRPO 在 DeepSeek-R1 中的成功引发了大量改进工作。本节系统梳理 8 个 GRPO 变体,分析各自解决的问题与贡献。
5.1 DAPO:解耦裁剪与动态采样
DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)(Yu et al., ByteDance Seed, NeurIPS 2025)是对 GRPO 最全面的改进,包含 4 项关键技术:
技术 1:Clip-Higher(非对称裁剪)
vanilla GRPO 使用对称裁剪
例如
技术 2:Dynamic Sampling(动态采样)
过滤掉奖励全为 0 或全为 1 的 prompt 组——这些组的优势为零,不产生梯度信号:
通过动态补充有效 prompt,确保每个 batch 都有足够的梯度信号。
技术 3:Token-level Loss(token 级损失)
GRPO 使用序列级损失归一化(除以
技术 4:去除 KL 损失
DAPO 移除了 KL 散度惩罚项,因为在长 CoT 场景中 KL 约束过于保守,限制了模型探索。
实验结果:使用 Qwen2.5-32B,DAPO 在 AIME 2024 上达到 50% 准确率,超越 DeepSeek-R1-Zero(同 base model),且训练步数减少 50%。
5.2 Dr. GRPO:GRPO Done Right
Dr. GRPO(Liu et al., COLM 2025)从理论层面识别并修复了 GRPO 的两个系统性偏差:
偏差 1:长度偏差(Length Bias)
GRPO 的序列级归一化
- 错误但冗长的回复的每个 token 获得更大梯度(因为总损失被短长度稀释程度更小)
- 模型被鼓励生成更长的回复,即使是错误的
偏差 2:难度偏差(Difficulty Bias)
标准差归一化
- 简单题(全对或全错,低方差)的优势被放大
- 困难题(部分对,高方差)反而被低估——但这恰恰是最有价值的学习信号
Dr. GRPO 修复:同时移除
其中
实验结果:使用 Qwen2.5-1.5B 在 AIME 2024 上:
- Dr. GRPO 比 GRPO 更快收敛
- 生成更短的回复(尤其是错误回复更短)
- 达到 43.3% 准确率(7B 模型),创当时 SOTA
5.3 λ-GRPO:可学习的 token 偏好
λ-GRPO(Wang et al., 2025)提出了一个统一框架,将 GRPO、DAPO、Dr.GRPO 统一为一个公式,并引入可学习参数
当
关键洞察:让模型自己学习最优的 token 加权方式,而非使用人工启发式。
实验结果:在 Qwen2.5 系列模型上:
- λ-GRPO 比 GRPO 提升 +1.9%(1.5B)/ +1.0%(3B)/ +1.7%(7B)
- 比 DAPO 维持更高的 token 级熵,训练更稳定
5.4 REINFORCE++
REINFORCE++(Hu, 2024)揭示了 GRPO 与经典 REINFORCE 算法的深层联系:
GRPO 的优势估计本质上是 REINFORCE with baseline 的一个特例——基线是组内均值。REINFORCE++ 进一步简化,去除 PPO 的裁剪机制,使用更简洁的策略梯度:
5.5 DisCO:判别式约束优化
DisCO(Discriminative Constrained Optimization)(NeurIPS 2025)从根本上重新设计了 GRPO 的目标函数:
- 用判别式目标替代组相对目标——直接最大化正确回复与错误回复的概率差
- 用约束优化替代 KL 惩罚——更精确地控制策略偏移
- 使用非裁剪代理——避免裁剪带来的梯度消失
实验结果:DisCO 声称比 GRPO 提升 +7%,比 DAPO 提升 +6%。
5.6 Spectral PO:处理全负组
Spectral Policy Optimization(ICML 2025)解决了 GRPO 的一个关键盲点——当所有采样回复都是错误的时:
- vanilla GRPO:所有优势为负,模型只是在"选最不差的",学习信号微弱
- Spectral PO:引入 AI 反馈增加负面组的回复多样性,提供有效梯度信号
- 理论分析了多样化策略的收敛性
5.7 其他变体
NGRPO(Negative-enhanced GRPO)(Nan & Chen, 2025):将全负组中的同质化错误转化为鲁棒学习信号,增强模型从失败中学习的能力。
Off-policy GRPO(OpenReview 2025):将 GRPO 扩展到离线策略设置,使用经验回放缓冲区中的历史数据,减少在线采样的计算开销。
5.8 GRPO 变体对比总览
| 方法 | 修复的偏差 | 核心改动 | 性能提升 | 会议 |
|---|---|---|---|---|
| GRPO | — | 基线方法 | — | arXiv 2024 |
| DAPO | 熵坍缩 + 无效梯度 | 非对称裁剪 + 动态采样 + token 级损失 + 去 KL | AIME +50% (Qwen-32B) | NeurIPS 2025 |
| Dr. GRPO | 长度偏差 + 难度偏差 | 去除 | 更短更准 | COLM 2025 |
| λ-GRPO | 固定 token 加权 | 可学习参数 | +1.0~1.9% | arXiv 2025 |
| REINFORCE++ | 过度复杂 | 去除裁剪,纯策略梯度 | 简化实现 | arXiv 2024 |
| DisCO | 组相对目标局限 | 判别式 + 约束优化 | +7% vs GRPO | NeurIPS 2025 |
| Spectral PO | 全负组无信号 | AI 反馈多样化 | 困难题提升 | ICML 2025 |
GRPO 变体演化关系图
━━━━━━━━━━━━━━━━━━━━━━
GRPO (DeepSeekMath, 2024)
│
┌──────────┼──────────┬──────────┐
▼ ▼ ▼ ▼
DAPO Dr. GRPO REINFORCE++ DisCO
(4项改进) (去偏差) (简化) (判别式)
│ │
└────┬─────┘
▼
λ-GRPO
(统一框架)六、RLVR:可验证奖励的崛起
6.1 从 RLHF 到 RLVR 的范式转变
RLVR(Reinforcement Learning with Verifiable Rewards) 代表了 RL 对齐的一个重要范式转变:
| RLHF | RLVR | |
|---|---|---|
| 奖励来源 | 人类偏好 → 奖励模型 | 规则/程序自动验证 |
| 适用任务 | 通用对话、写作 | 数学、代码、逻辑推理 |
| 标注成本 | 高(需人类标注) | 低(自动化) |
| 奖励准确性 | 受 RM 偏差影响 | 精确(ground truth) |
| 扩展性 | 受限于标注规模 | 几乎无限 |
DeepSeek-R1 的成功很大程度上归功于 RLVR——使用数学正确性和代码执行结果作为奖励,无需任何人类标注。
6.2 RLVR 的边界与局限
"Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?"(Yue et al., 2025)是一篇至关重要的反思性论文,对 RLVR 的能力边界提出了深刻质疑。
核心发现(通过 pass@k 分析):
pass@k 性能对比 (示意)
100%|
| RL模型
| ╱
| ╱ Base模型
| ╱ ╱
|╱ ─────╱
|────╱
|───╱
0%└──────────────────────
k=1 k=64 k=256- 小 k 时 RL 模型更优:RLVR 显著提升 pass@1(从 30% → 60%+)
- 大 k 时 base model 反超:pass@256 时,base model 的覆盖率更高
- 所有 RL 模型的正确解都已存在于 base model 的分布中
结论:RLVR 提升的是采样效率(sampling efficiency),而非推理能力(reasoning capacity)。它让模型更快找到正确答案,但缩小了解空间。
与蒸馏的对比:蒸馏可以引入 base model 原本不具备的推理能力(真正的能力扩展),而 RLVR 只是优化已有能力的利用效率。
6.3 ExPO:引导式探索
ExPO(Exploration via Self-Explanation)(NeurIPS 2025)针对 GRPO 在困难问题上的失效——当所有采样都错误时无法学习:
- 引入自解释机制:让模型解释为什么某些步骤是错误的
- 利用解释生成引导式探索,突破全负组的困境
6.4 Tülu 3:开源后训练流水线
Tülu 3(AI2, 2024)提供了完整的开源后训练流水线,系统验证了 SFT → DPO → RLVR 的组合效果:
- 在 Llama 3.1 8B/70B 上验证
- RLVR 阶段使用 GRPO + 规则奖励
- 开源所有代码、数据和模型权重
6.5 BNF:双向负反馈
BNF(Bidirectional Negative Feedback)(ICLR 2025)提出了一种替代 DPO 的新范式:
- 不需要成对对比损失
- 使用双向负反馈信号稳定训练
- 在数学数据集上比 DPO 更稳定
七、奖励模型:从 ORM 到 PRM
奖励模型是 RL 对齐的核心组件。根据奖励的粒度,可分为:
- ORM(Outcome Reward Model):仅对最终结果评分
- PRM(Process Reward Model):对推理的每一步评分
7.1 Let's Verify Step by Step(PRM800K)
Lightman et al.(OpenAI, ICLR 2024) 系统比较了 PRM 与 ORM:
| 方法 | MATH Best-of-1860 |
|---|---|
| Majority Voting | 69.6% |
| ORM | 72.4% |
| PRM | 78.2% |
PRM 评分每步独立判断:
论文释放了 PRM800K——80 万条 step-level 人工标注数据,成为 PRM 研究的基础数据集。
7.2 Math-Shepherd:自动过程监督
Math-Shepherd(Wang et al., ACL 2024)解决了 PRM 依赖昂贵人工标注的瓶颈,使用 Monte Carlo 估计自动生成 step-level 标签:
对部分解
- 硬标签:
- 软标签:
无需任何人工步级标注,大幅降低了 PRM 的构建成本。
7.3 Generative Verifiers
Generative Verifiers(Zhang et al., Google, ICLR 2025)提出了生成式奖励模型:
- 传统 RM 在最后一层加分类头打分
- 生成式 RM 通过下一个 token 预测来验证:生成 CoT 解释后输出 "correct" 或 "incorrect"
- 优势:更好的泛化性、可解释性、对分布偏移的鲁棒性
7.4 Implicit PRM
Implicit PRM(ICML 2025)的突破性贡献:仅用结果标签训练出过程奖励模型。
核心思想:将结果奖励参数化为对数似然比:
然后通过分解得到每一步的隐式过程奖励。
惊人结果:仅用 ORM 标签,性能超越 Math-Shepherd,且只需 1/38 的训练数据。
7.5 其他 PRM 工作
VersaPRM(ICML 2025 Spotlight)将 PRM 扩展到多领域——不仅限于数学,还覆盖法律、生物等领域,使用合成推理数据训练。
PQM(Process Reward Model with Q-value Rankings)(Li & Li, ICLR 2025)将 PRM 建模为 MDP,使用 Q 值排序损失替代交叉熵,更好地建模步骤间依赖关系。
7.6 奖励模型对比
| 方法 | 奖励粒度 | 需要步级标注 | 核心创新 | 会议 |
|---|---|---|---|---|
| ORM | 结果级 | ❌ | 基线方法 | — |
| PRM (PRM800K) | 步骤级 | ✅ (人工) | 首次大规模验证 PRM > ORM | ICLR 2024 |
| Math-Shepherd | 步骤级 | ❌ (MC 估计) | 自动标注 | ACL 2024 |
| Generative Verifier | 步骤级 | ❌ | CoT 验证生成 | ICLR 2025 |
| Implicit PRM | 步骤级 | ❌ (结果标签) | 隐式分解 | ICML 2025 |
| VersaPRM | 步骤级 | ❌ (合成) | 多领域泛化 | ICML 2025 |
| PQM | 步骤级 | ❌ | Q 值排序 | ICLR 2025 |
八、自博弈与自奖励
8.1 Self-Rewarding Language Models
Self-Rewarding LMs(Yuan et al., Meta, ICML 2024)提出了一个激进的想法——让模型自己当 judge:
- 模型生成回复
- 模型自己评判回复质量(LLM-as-a-Judge)
- 基于自评生成偏好数据
- 使用 DPO 在自生成的偏好数据上训练
- 迭代重复
关键发现:性能随迭代次数持续提升(M1 → M2 → M3),在 AlpacaEval 2.0 上从 9.94% → 15.38% → 20.44%。
理论限制:自奖励机制受限于模型自身的判断能力——如果模型无法区分好坏回复,自我提升将停滞。
8.2 SPIN:自博弈微调
SPIN(Self-Play Fine-Tuning)(Chen et al., ICML 2024)借鉴了博弈论中的自博弈思想:
- 主玩家(当前模型)学习区分自己上一轮生成的回复和人类标注回复
- 对手玩家(上一轮模型)生成"假"回复
- 迭代训练,直到模型分布与数据分布一致
数学保证:全局最优当且仅当模型策略 = 数据分布。
优势:不需要人类偏好数据或更强模型的反馈。
8.3 Online Iterative RLHF
Online Iterative RLHF(Xiong et al., ICML 2024)解决 DPO 的分布偏移问题:
- 每个 epoch 重新生成回复(在线采样)
- 使用学到的奖励模型重新评估
- 迭代 DPO 训练
这桥接了 DPO(离线、简单但有分布偏移)和 PPO(在线、复杂但无分布偏移)之间的鸿沟。
九、安全对齐与前沿
9.1 RePO:安全对齐的校正策略优化
RePO(Rectified Policy Optimization)(NeurIPS 2025)针对安全对齐中的"安全补偿"问题:
- 标准 RLHF 在期望意义上优化安全性,但单个 prompt 仍可能生成有害回复
- RePO 使用逐 prompt 的安全约束(而非期望约束)
- 校正策略梯度,确保在提升有用性的同时不牺牲安全性
9.2 数据选择:Less is More
"Less is More: Improving LLM Alignment via Preference Data Selection"(Deng et al., NeurIPS 2025)验证了偏好数据的质量远比数量重要:
- 精选子集训练效果优于全量数据
- 提出基于影响函数的数据选择方法
9.3 LarPO:对齐即检索
LarPO(ICML 2025)将 LLM 对齐映射到信息检索范式:
- 将策略优化视为检索-重排序问题
- 在 AlpacaEval 2.0 上提升 +38.9%
十、全景对比与未来方向
10.1 算法全景对比
| 方法 | 类型 | RM | 在线采样 | 模型数 | 显存 | 适用场景 | 会议 |
|---|---|---|---|---|---|---|---|
| PPO | RLHF | ✅ | ✅ | 4 | 极高 | 通用 | arXiv 2017 |
| DPO | 偏好 | ❌ | ❌ | 2 | 低 | 离线偏好 | NeurIPS 2023 |
| IPO | 偏好 | ❌ | ❌ | 2 | 低 | 非 BT 偏好 | AISTATS 2024 |
| KTO | 偏好 | ❌ | ❌ | 2 | 低 | 单侧反馈 | ICML 2024 |
| ORPO | 偏好 | ❌ | ❌ | 1 | 极低 | SFT+对齐 | ACL 2024 |
| SimPO | 偏好 | ❌ | ❌ | 1 | 极低 | 无参考模型 | NeurIPS 2024 |
| GRPO | RLVR | 可选 | ✅ | 2 | 中 | 可验证任务 | arXiv 2024 |
| DAPO | RLVR | 可选 | ✅ | 2 | 中 | 长 CoT | NeurIPS 2025 |
| Dr.GRPO | RLVR | 可选 | ✅ | 2 | 中 | 数学推理 | COLM 2025 |
10.2 算法选型决策树
你的任务是什么?
│
┌──────────┼──────────┐
▼ ▼ ▼
可验证 有偏好数据 通用对话
(数学/代码) (成对比较) (无明确信号)
│ │ │
▼ ▼ ▼
GRPO/DAPO 有在线资源? PPO+RM
│ │
│ ┌────┼────┐
│ ▼ ▼
│ 是: 否:
│ Online DPO DPO/SimPO
│
┌────┼────────┐
▼ ▼
长 CoT 短回复
DAPO Dr.GRPO10.3 开放问题与未来方向
1. RLVR 的能力边界
- Yue et al. 证明 RLVR 不扩展推理能力,仅提升采样效率
- 如何让 RL 真正扩展模型能力?蒸馏 vs RL 的互补关系?
2. 奖励模型的泛化性
- PRM 主要验证于数学领域
- VersaPRM 的多领域尝试仍处于早期
- 通用的过程监督方案仍然缺失
3. 规模化与效率
- DeepSeek-R1 使用 671B MoE 模型 + 数千 GPU
- 如何在小模型/少资源场景下实现有效 RL?
- 离线 GRPO(Off-policy GRPO)的探索
4. 安全性与可控性
- RLVR 的优化可能与安全性目标冲突
- 多目标 RL(有用 + 无害 + 诚实)的平衡
- RePO 等安全约束方法的扩展
5. 自我提升的极限
- Self-Rewarding / SPIN 受限于模型自身能力
- 如何突破自我提升的天花板?
- 与外部验证器/工具使用的结合
6. 长链推理的训练稳定性
- DAPO 的熵坍缩问题
- Spectral PO 的全负组问题
- 如何在训练中保持探索多样性?
十一、参考文献
RLHF 基石
[InstructGPT] Ouyang, L., Wu, J., Jiang, X., et al. "Training language models to follow instructions with human feedback." NeurIPS, 2022.
[PPO] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., Klimov, O. "Proximal Policy Optimization Algorithms." arXiv:1707.06347, 2017.
[CAI] Bai, Y., Kadavath, S., Kundu, S., et al. "Constitutional AI: Harmlessness from AI Feedback." arXiv:2212.08073, 2022.
[Ziegler et al.] Ziegler, D. M., Stiennon, N., Wu, J., et al. "Fine-Tuning Language Models from Human Preferences." NeurIPS, 2019.
DPO 家族
[DPO] Rafailov, R., Sharma, A., Mitchell, E., Manning, C. D., Ermon, S., Finn, C. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model." NeurIPS, 2023. (Oral)
[IPO/ΨPO] Azar, M. G., Rowland, M., Piot, B., et al. "A General Theoretical Paradigm to Understand Learning from Human Feedback." AISTATS, 2024.
[KTO] Ethayarajh, K., Xu, W., Muennighoff, N., Jurafsky, D., Kiela, D. "KTO: Model Alignment as Prospect Theoretic Optimization." ICML, 2024. (Spotlight)
[ORPO] Hong, J., Lee, N., Thorne, J. "ORPO: Monolithic Preference Optimization without Reference Model." ACL, 2024.
[SimPO] Meng, Y., Xia, M., Chen, D. "SimPO: Simple Preference Optimization with a Reference-Free Reward." NeurIPS, 2024.
[DPO vs PPO] Xu, S., Fu, W., Gao, J., et al. "Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study." ICML, 2024.
[RTO] Zhong, H., et al. "DPO Meets PPO: Reinforced Token Optimization for RLHF." ICML, 2025.
GRPO 核心
[DeepSeekMath/GRPO] Shao, Z., Wang, P., Zhu, Q., et al. "DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models." arXiv:2402.03300, 2024.
[DeepSeek-R1] Guo, D., Yang, D., Zhang, H., et al. "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning." Nature, 2025.
[Kimi k1.5] Kimi Team. "Kimi k1.5: Scaling Reinforcement Learning with LLMs." arXiv:2501.12599, 2025.
GRPO 变体
[DAPO] Yu, Q., Zhang, Z., Zhu, R., et al. "DAPO: An Open-Source LLM Reinforcement Learning System at Scale." NeurIPS, 2025.
[Dr. GRPO] Liu, Z., Chen, C., Li, W., et al. "Understanding R1-Zero-Like Training: A Critical Perspective." COLM, 2025.
[λ-GRPO] Wang, Y., Zhao, J., Zhao, C., Guan, S., Penn, G., Liu, S. "λ-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences." arXiv:2510.06870, 2025.
[REINFORCE++] Hu, J. "REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models." arXiv:2409.09849, 2024.
[DisCO] "DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization." NeurIPS, 2025.
[Spectral PO] "Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO." ICML, 2025.
[NGRPO] Nan, F., Chen, Y. "NGRPO: Negative-enhanced Group Relative Policy Optimization." arXiv, 2025.
[Off-policy GRPO] "Off-policy GRPO: Revisiting Group Relative Policy Optimization." OpenReview, 2025.
RLVR
[Limit of RLVR] Yue, Y., et al. "Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?" 2025.
[ExPO] "ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided RL." NeurIPS, 2025.
[BNF] "BNF: As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss." ICLR, 2025.
[Tülu 3] Ivison, H., Wang, Y., et al. "Tülu 3: Pushing Frontiers in Open Language Model Post-Training." arXiv:2411.15124, 2024.
奖励模型与过程监督
[PRM800K] Lightman, H., Kosaraju, V., Burda, Y., et al. "Let's Verify Step by Step." ICLR, 2024.
[Math-Shepherd] Wang, P., Li, L., Shao, Z., et al. "Math-Shepherd: Verify and Reinforce LLMs Step-by-Step without Human Annotations." ACL, 2024.
[Generative Verifiers] Zhang, D., et al. "Generative Verifiers: Reward Modeling as Next-Token Prediction." ICLR, 2025.
[Implicit PRM] "Implicit Process Reward Models: Training Process Reward Models from Outcome Labels." ICML, 2025.
[VersaPRM] "VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data." ICML, 2025. (Spotlight)
[PQM] Li, W., Li, Y. "Process Reward Model with Q-value Rankings." ICLR, 2025.
自博弈与自奖励
[Self-Rewarding] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., Weston, J. "Self-Rewarding Language Models." ICML, 2024.
[SPIN] Chen, Z., Deng, Y., Yuan, H., Ji, K., Gu, Q. "Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models." ICML, 2024.
[Online Iterative RLHF] Xiong, W., et al. "Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint." ICML, 2024.
安全对齐与前沿
[RePO] "RePO: Enhancing Safety in RLHF via Rectified Policy Optimization." NeurIPS, 2025.
[LarPO] "LarPO: LLM Alignment as Retriever Preference Optimization." ICML, 2025.
[Less is More] Deng, X., et al. "Less is More: Improving LLM Alignment via Preference Data Selection." NeurIPS, 2025.
[RL Survey] "Reinforcement Learning for Reasoning in Large Language Models: A Survey." arXiv, 2024.
[RLVR-World] Wu, J., et al. "RLVR-World: Training World Models with Reinforcement Learning." NeurIPS, 2025.