OpenAI o1 强化微调（RFT）开源方案之字节 ReFT因工作重点做LLM的落地，对模型的 Reasoning 推理能力要求较高，也实践过 CoT 微调。而 o1 能推出 RFT 证明这项技术已经生产可用，故接下来就认真研究下业界方案，尤其关注可落地执行的开源方案。首个拜读的论文是来自字节的《ReFT: Reasoning with

发布时间: 2024-12-08 11:10:37

1分

数据加载中

OpenAI o1 强化微调（RFT）开源方案之字节 ReFT
因工作重点做LLM的落地，对模型的 Reasoning 推理能力要求较高，也实践过 CoT 微调。而 o1 能推出 RFT 证明这项技术已经生产可用，故接下来就认真研究下业界方案，尤其关注可落地执行的开源方案。
首个拜读的论文是来自字节的《ReFT: Reasoning with
时政
( twitter.com )

OpenAI o1 强化微调（RFT）开源方案之字节 ReFT

因工作重点做LLM的落地，对模型的 Reasoning 推理能力要求较高，也实践过 CoT 微调。而 o1 能推出 RFT 证明这项技术已经生产可用，故接下来就认真研究下业界方案，尤其关注可落地执行的开源方案。

首个拜读的论文是来自字节的《ReFT: Reasoning with Reinforced Fine-Tuning》，今年1月份发布，且貌似是第一个提出 RFT 名词的文章。（题外话，字节的学术做的很不错， NeurIPS 2024 有很多篇字节的论文。）

整个 ReFT 的方法参见附图1。具体的原理见论文，核心是具备了三个 RFT 的关键要素：

1. 不依赖人工思维链标注的奖励系统。这是和传统的 RLHF、DPO等方法对比，在数学等领域中，有天然的正例可以作为 PPO 训练的奖励基础，无需人工标注思维链。

2. 只需要标注正例答案，ReFT 可自行搜索 CoT 路径（含负例和正例）。之前 CoT 微调主要靠大量 CoT 数据，这种微调方法我也实践过，缺点有2： 1. 需要合成大量数据，2. 正确路径不止一条，模型仅在单一的正确路径上训练，泛化性较差。参见附图2 ，ReFT 可以搜索到错误和正确的路径，且除多次合成路径外，也增加多数投票、奖励模型重排序方法来提升路径质量。

3. 部分正确奖励信号：ReFT将推理正确打分为1，推理失败打分为0，不正确的结果打分为0.1。从而可以缓解稀疏奖励的问题，提升训练稳定性，鼓励模型探索更多的推理路径。这点可能不够精细，o1 号称可以做到分步奖励，但是需要等 RFT 上线后才能知道～

接下来，有三个方向可以继续学习：

1. 如何更好的自动搜索 CoT 的不同路径？MCTS？
2. 如何更好的给出奖励信号？分步奖励？
3. 在某个真实的推理需求中进行测试？手头有一些医疗诊断和设备诊断的数据。

#RFT #o1