“强化学习之所以厉害,是因为它能大大缩小模型搜索空间,只需关注那些被简单的验证器(reward model)认可的策略!”
以下内容为转译
---
一年半前,我们提出了一个看似简单的问题:在大模型微调时使用强化学习(RL),究竟有什么实际的好处?经过我博士生涯中最深入的一次探索,我非常兴奋地分享我们的发现:RL在基于人类反馈的强化学习(RLHF)中的价值,来自一种被我们称为「生成-验证落差」(generation-verification gap)的机制。
准备好了吗?让我们一起深潜🤿!
如果你更喜欢直接看结论而不想“潜水太深”,简单概括一下就是:
强化学习之所以厉害,是因为它能大大缩小模型搜索空间,只需关注那些被简单的验证器(reward model)认可的策略!
🧭 为什么这个问题没那么简单?
表面上看,所谓的偏好微调(Preference Fine-tuning,简称PFT)其实很简单:我们只是想让模型更倾向于生成用户喜欢的答案,而少生成不喜欢的答案。
那为什么不能直接用最简单的最大似然估计(MLE),直接用人类给出的偏好数据训练呢?
目前已有一些离线微调方法,比如DPO、IPO、SLiC,它们都是直接通过MLE优化模型的生成概率,从理论上讲应该已经“足够好了”。
但奇怪的是,几乎所有表现最强的大模型(无论是聊天模型、推理模型还是智能体模型),在训练过程中都用到了**强化学习(RL)**这一更复杂、更费计算资源的方法。似乎现实和理论出现了矛盾。
这引起了我们的极大好奇心,于是我们决定真正地去做一次科学研究,探索到底RL比纯粹的MLE更厉害在哪里?
🚩 看似相同的步骤,差距却很明显!
先来直观感受一下我们遇到的一个困惑:
在RLHF中,第一步是先通过人类偏好数据训练一个奖励模型(reward model,简称RM)。但从数据处理的角度来看,这一步只可能损失信息,而不可能增加新的信息。
而第二步,强化学习在实际训练过程中,虽然生成了很多额外的数据,但这些数据实际上并未新增任何真正的人类偏好信息。
事实上,我们能从理论上证明:在非常理想的条件下,MLE和在线强化学习(online RLHF)本质上会产生完全相同的最优策略。
更直白地说,如果强化学习和MLE在理想情况下是等价的,为什么现实中强化学习的效果总是更好呢?
🔬 我们决定动手做真正的科学实验!
为了解决这一谜团,我们进行了一系列严格的对比实验:
我们仔细控制了在线强化学习(online RLHF)和离线MLE微调之间的所有可能差异,避免了一切干扰因素。
我们提出了多个假设,一一进行实验检验。大部分假设都被我们推翻了,直到最后只剩下一个解释能经受住所有实验检验的考验。
💡 最终揭开谜底的关键概念:「生成-验证落差」
我们发现RL比MLE厉害的核心原因,是因为RLHF的强化学习阶段能够利用「生成-验证落差」。
具体地讲:
验证器(即奖励模型)通常比真正的生成器(即策略模型)更简单、更容易训练,对数据需求更少。
RL阶段利用这个简单的验证器,可以迅速筛选出那些“符合验证器标准”的好策略,从而极大地减少了搜索空间。
相比之下,MLE直接尝试在庞大的策略空间中找到最优解,难度大得多,效率低得多。
换句话说:
虽然条条大路通「概率最大化」,但强化学习找到了一条捷径!
这在统计学中被称为“合适学习”(proper learning)。
🔍 我们的理论也通过了更多实验验证!
我们做了一个关键实验:当我们刻意缩小生成和验证之间的差距,比如让模型生成更短、更简单的答案时,在线RL与离线MLE的差距竟然消失了!
这个发现进一步强化了我们的理论,也排除了许多其他可能的解释。
同时,这也预示了未来的一个重要方向:
对于更复杂、更长的任务(比如多轮对话、复杂推理、智能体任务),强化学习的优势将会变得更明显。
🌟 这趟旅程不易,但收获巨大
这次研究,是我个人经历的最艰难的一次探索,也是我目前最为自豪的项目。我特别感激我的导师 Drew 和 Steven,在当下浮躁的研究环境中,依然支持我慢下来、深入思考。
更多细节欢迎查看我们的论文(即将发布代码):
👉 《All Roads Lead to Likelihood》arxiv: 2503.01067
点击图片查看原图
点击图片查看原图