“强化学习之所以厉害，是因为它能大大缩小模型搜索空间，只需关注那些被简单的验证器（reward model）认可的策略！”以下内容为转译---

发布时间: 2025-03-08 12:20:05

1分

数据加载中

“强化学习之所以厉害，是因为它能大大缩小模型搜索空间，只需关注那些被简单的验证器（reward model）认可的策略！”
以下内容为转译
---
IT技术
( twitter.com )

“强化学习之所以厉害，是因为它能大大缩小模型搜索空间，只需关注那些被简单的验证器（reward model）认可的策略！”

以下内容为转译
---

一年半前，我们提出了一个看似简单的问题：在大模型微调时使用强化学习（RL），究竟有什么实际的好处？经过我博士生涯中最深入的一次探索，我非常兴奋地分享我们的发现：RL在基于人类反馈的强化学习（RLHF）中的价值，来自一种被我们称为「生成-验证落差」（generation-verification gap）的机制。

准备好了吗？让我们一起深潜🤿！

如果你更喜欢直接看结论而不想“潜水太深”，简单概括一下就是：

强化学习之所以厉害，是因为它能大大缩小模型搜索空间，只需关注那些被简单的验证器（reward model）认可的策略！

🧭 为什么这个问题没那么简单？

表面上看，所谓的偏好微调（Preference Fine-tuning，简称PFT）其实很简单：我们只是想让模型更倾向于生成用户喜欢的答案，而少生成不喜欢的答案。

那为什么不能直接用最简单的最大似然估计（MLE），直接用人类给出的偏好数据训练呢？

目前已有一些离线微调方法，比如DPO、IPO、SLiC，它们都是直接通过MLE优化模型的生成概率，从理论上讲应该已经“足够好了”。

但奇怪的是，几乎所有表现最强的大模型（无论是聊天模型、推理模型还是智能体模型），在训练过程中都用到了**强化学习（RL）**这一更复杂、更费计算资源的方法。似乎现实和理论出现了矛盾。

这引起了我们的极大好奇心，于是我们决定真正地去做一次科学研究，探索到底RL比纯粹的MLE更厉害在哪里？

🚩 看似相同的步骤，差距却很明显！

先来直观感受一下我们遇到的一个困惑：

在RLHF中，第一步是先通过人类偏好数据训练一个奖励模型（reward model，简称RM）。但从数据处理的角度来看，这一步只可能损失信息，而不可能增加新的信息。
而第二步，强化学习在实际训练过程中，虽然生成了很多额外的数据，但这些数据实际上并未新增任何真正的人类偏好信息。

事实上，我们能从理论上证明：在非常理想的条件下，MLE和在线强化学习（online RLHF）本质上会产生完全相同的最优策略。

更直白地说，如果强化学习和MLE在理想情况下是等价的，为什么现实中强化学习的效果总是更好呢？

🔬 我们决定动手做真正的科学实验！

为了解决这一谜团，我们进行了一系列严格的对比实验：

我们仔细控制了在线强化学习（online RLHF）和离线MLE微调之间的所有可能差异，避免了一切干扰因素。
我们提出了多个假设，一一进行实验检验。大部分假设都被我们推翻了，直到最后只剩下一个解释能经受住所有实验检验的考验。

💡 最终揭开谜底的关键概念：「生成-验证落差」

我们发现RL比MLE厉害的核心原因，是因为RLHF的强化学习阶段能够利用「生成-验证落差」。

具体地讲：

验证器（即奖励模型）通常比真正的生成器（即策略模型）更简单、更容易训练，对数据需求更少。
RL阶段利用这个简单的验证器，可以迅速筛选出那些“符合验证器标准”的好策略，从而极大地减少了搜索空间。
相比之下，MLE直接尝试在庞大的策略空间中找到最优解，难度大得多，效率低得多。

换句话说：

虽然条条大路通「概率最大化」，但强化学习找到了一条捷径！

这在统计学中被称为“合适学习”（proper learning）。

🔍 我们的理论也通过了更多实验验证！

我们做了一个关键实验：当我们刻意缩小生成和验证之间的差距，比如让模型生成更短、更简单的答案时，在线RL与离线MLE的差距竟然消失了！

这个发现进一步强化了我们的理论，也排除了许多其他可能的解释。

同时，这也预示了未来的一个重要方向：

对于更复杂、更长的任务（比如多轮对话、复杂推理、智能体任务），强化学习的优势将会变得更明显。

🌟 这趟旅程不易，但收获巨大

这次研究，是我个人经历的最艰难的一次探索，也是我目前最为自豪的项目。我特别感激我的导师 Drew 和 Steven，在当下浮躁的研究环境中，依然支持我慢下来、深入思考。

更多细节欢迎查看我们的论文（即将发布代码）：

👉 《All Roads Lead to Likelihood》arxiv: 2503.01067