OpenAI o1 强化微调(RFT)开源方案之字节 ReFT
因工作重点做LLM的落地,对模型的 Reasoning 推理能力要求较高,也实践过 CoT 微调。而 o1 能推出 RFT 证明这项技术已经生产可用,故接下来就认真研究下业界方案,尤其关注可落地执行的开源方案。
首个拜读的论文是来自字节的 《ReFT: Reasoning with Reinforced Fine-Tuning》,今年1月份发布,且貌似是第一个提出 RFT 名词的文章。(题外话,字节的学术做的很不错, NeurIPS 2024 有很多篇字节的论文。)
整个 ReFT 的方法参见附图1。具体的原理见论文,核心是具备了三个 RFT 的关键要素:
1. 不依赖人工思维链标注的奖励系统。这是和传统的 RLHF、DPO等方法对比,在数学等领域中,有天然的正例可以作为 PPO 训练的奖励基础,无需人工标注思维链。
2. 只需要标注正例答案,ReFT 可自行搜索 CoT 路径(含负例和正例)。 之前 CoT 微调主要靠大量 CoT 数据,这种微调方法我也实践过,缺点有2: 1. 需要合成大量数据,2. 正确路径不止一条,模型仅在单一的正确路径上训练,泛化性较差。参见附图2 ,ReFT 可以搜索到错误和正确的路径,且除多次合成路径外,也增加多数投票、奖励模型重排序方法来提升路径质量。
3. 部分正确奖励信号:ReFT将推理正确打分为1,推理失败打分为0,不正确的结果打分为0.1。从而可以缓解稀疏奖励的问题,提升训练稳定性,鼓励模型探索更多的推理路径。这点可能不够精细,o1 号称可以做到分步奖励,但是需要等 RFT 上线后才能知道~
接下来,有三个方向可以继续学习:
1. 如何更好的自动搜索 CoT 的不同路径?MCTS?
2. 如何更好的给出奖励信号?分步奖励?
3. 在某个真实的推理需求中进行测试?手头有一些医疗诊断和设备诊断的数据。
#RFT #o1
点击图片查看原图
点击图片查看原图