OpenAI o1 强化微调（RFT）开源方案之字节 ReFT 因工作重点做LLM的落地，对模型的 Reasoning 推理能力要求较高，也实践过 CoT 微调。而 o1 能推出 RFT 证明这项技术已经生产可用，故接下来就认真研究下业界方案，尤其关注可落地执行的开源方案。首个拜读的论文是来自字节的《ReFT: Reasoning with

OpenAI o1 强化微调（RFT）开源方案之字节 ReFT

因工作重点做LLM的落地，对模型的 Reasoning 推理能力要求较高，也实践过 CoT 微调。而 o1 能推出 RFT 证明这项技术已经生产可用，故接下来就认真研究下业界方案，尤其关注可落地执行的开源方案。

首个拜读的论文是来自字节的《ReFT: Reasoning with Reinforced Fine-Tuning》，今年1月份发布，且貌似是第一个提出 RFT 名词的文章。（题外话，字节的学术做的很不错， NeurIPS 2024 有很多篇字节的论文。）

整个 ReFT 的方法参见附图1。具体的原理见论文，核心是具备了三个 RFT 的关键要素：

1. 不依赖人工思维链标注的奖励系统。这是和传统的 RLHF、DPO等方法对比，在数学等领域中，有天然的正例可以作为 PPO 训练的奖励基础，无需人工标注思维链。

2. 只需要标注正例答案，ReFT 可自行搜索 CoT 路径（含负例和正例）。之前 CoT 微调主要靠大量 CoT 数据，这种微调方法我也实践过，缺点有2： 1. 需要合成大量数据，2. 正确路径不止一条，模型仅在单一的正确路径上训练，泛化性较差。参见附图2 ，ReFT 可以搜索到错误和正确的路径，且除多次合成路径外，也增加多数投票、奖励模型重排序方法来提升路径质量。

3. 部分正确奖励信号：ReFT将推理正确打分为1，推理失败打分为0，不正确的结果打分为0.1。从而可以缓解稀疏奖励的问题，提升训练稳定性，鼓励模型探索更多的推理路径。这点可能不够精细，o1 号称可以做到分步奖励，但是需要等 RFT 上线后才能知道～

接下来，有三个方向可以继续学习：

1. 如何更好的自动搜索 CoT 的不同路径？MCTS？
2. 如何更好的给出奖励信号？分步奖励？
3. 在某个真实的推理需求中进行测试？手头有一些医疗诊断和设备诊断的数据。

#RFT #o1

点击图片查看原图

1周内 1个月内 1年内全部时间

在 OpenRouter上，Qwen QWQ 调用量已经超过了 OpenAI o1 和 o1-mini，开放权重、价格低、基础能力突出，这样的推理模型谁不喜欢呢
时政
( twitter.com)

1个月前 • 未完成 • -- 点击 0 评论

李开复老师对于OpenAI和GPT-5的八卦：
GPT-5训练不顺利，所以发了o1
OpenAI内部有很多好东西还没拿出来
IT技术
( twitter.com)

2个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:01:08

在 o1 pro 发布后，研究机构 SemiAnalysis 算是首次揭露了 OpenAI o1 系列的架构，还包含大量的推测和非公开渠道信息，值得一读。
我好奇的其实就是这几个问题： o1 系列和其他大语言模型有什么本质区别？ o1 和 o1 pro 之间的差异点在哪？ Tokenomics 是如何考量的？
1️⃣ o1 系列基于「Chain of
时政
( twitter.com)

9天前 • Zhixiong Pan • -- 点击 0 评论

Open AI 举办了一个关于 Open AI o1 的 AMA。
回答了非常多用户和开发者关注的o1 问题：
- 强调 o1 不是一个“系统”而是一个经过系统训练的模型。
- mini 在某些方面确实更好，只是世界知识不够多
- o1 模型即将支持更大的输入上下文
- o1 本身是有多模态能力的
- CoT token 不会被公开
-
IT技术
( twitter.com)

3个月前 • 歸藏(guizang.ai) • -- 点击 0 评论

OpenAI 12天发布会的第 9 天，今天主要是针对开发者的，有多个API相关更新。首先是广受期待的o1
IT技术
( twitter.com)

19天前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:22:22

陶哲轩对 o1 的点评：更强大，但是在处理最复杂的数学研究任务还不够好，就像指导一个水平一般但不算太无能的研究生。
我体验了一下 OpenAI 最新版本的 GPT，即 GPT-o1，它在运行大语言模型 (LLM)
IT技术
( mathstodon.xyz)

3个月前 • 宝玉 • -- 点击 0 评论

超酷！Romain刚刚在OpenAI伦敦的DevDay现场，在Cursor里用o1 -MINI大约2分钟捏了一个应用，控制无人机在舞台上飞行，表演后空翻
#openai #openaio1 #DevDay
时政
( twitter.com)

2个月前 • AIGCLINK • -- 点击 • 下载视频 0 评论

00:00:57

该模型基于 LLaMA2 微调，具备 OpenAI Function Call 功能。目前数据集和训练过程还没有完全公开。
时政
( github.com)

1年前 • 九原客 • -- 点击 0 评论

Kimi 数学版今晚上线！
o1 出来之后，强化学习的范式已经成为业界共识。最近有三家公司都推出了自己的对标 o1 的模型，分别是月之暗面的 k0-math，Deepseek 的 R1 Lite，阿里巴巴的 Macro o1.
其中 k0-math 是最早发布的，重点优化了数学方面，在多项考试类测试集中都超过了 o1-preview。
IT技术
( twitter.com)

1个月前 • orange.ai • -- 点击 0 评论

这个碉堡了 🤯🤯 基于 Chat + 可视化 Workflow 的方式复现 OpenAI o1 ！⚡️ 还给开源了 🔥
通过实时可视化执行流程，处理无限递归，能够自我反思修复错误，关键还能使用 Python 解释器执行代码👍
源代码 👉
演示视频
时政
( github.com)

3个月前 • Tom Huang • -- 点击 • 下载视频 0 评论

00:00:18

据FT报道，微软放弃OpenAI董事会观察员的席位。随着对反垄断担忧的加剧，微软与OpenAI淡化了彼此之间的关系。欧盟委员会6月表示，正在探索对两者合作展开反垄断调查的可能性，美国联邦贸易委员会也开始审查微软、亚马逊和谷歌等大型科技企业对AI初创企业的投资。
时政
( twitter.com)

6个月前 • 外汇交易员 • -- 点击 0 评论

OpenAI 12 天的第 2 天，强化微调，通过少量数据，让模型在专业领域到达专家水平。
跟之前的微调不一样，它不是通过把数据记住答案，而是在微调的过程中训练自己在某个领域的推理能力找到正确答案，有点像给 AI 一本棋谱，让它自己训练自己下棋。
IT技术
( twitter.com)

1个月前 • 宝玉 • -- 点击 0 评论

就在一周前，OpenAI推出了具有先进“推理”能力的开创性模型o1。
创作者们正在用它发挥惊人的创意。
以下是10个疯狂的例子：
IT技术
( twitter.com)

3个月前 • Will • -- 点击 • 下载视频 0 评论

00:00:05

从截图还原网页，Claude sonnet 3.5 最强，o1 都比不上。
图一：Claude
图二：GPT-4o
图三：o1
图四：Gemini Flash 2.0
IT技术
( twitter.com)

14天前 • 宝玉 • -- 点击 0 评论

Google 悄悄推出了 Gemini 2.0 flash 的 Thinking 模型，专门为推理优化，类似与 OpenAI o1，但不同的是 Thinking 给出了完整的思考步骤和自己的选择，而且速度极快！用上个月 AI 工作坊的填数题试了试，o1 花了 40 秒还做错了，Thinking 每次只需 20 秒，而且每次都正确✨
IT技术
( twitter.com)

17天前 • indigo • -- 点击 • 下载视频 0 评论

00:00:26

OpenAI 终于开放了 GPT-3.5 的微调的API，如果嫌开源模型不够好用，又舍得花钱的话，真的是个好的选择。

花了点时间研究了一下官方的文档和Cookie Book，帮大家总结一下微调的一些常见问题。

1. 什么是微调（Fine-tuning）？…
IT技术
( twitter.com)

1年前 • 宝玉 • -- 点击 0 评论

⚠️危险信号在OpenAI安全报告中
展示了一个o1模型的黑客能力
o1 在参加一个网络安全比赛时遇到问题。比赛本来是要 o1 破解某个系统获取“flag”（一种比赛中的目标），但负责比赛的系统配置出了问题，导致比赛崩溃。
没想到，o1 模型没有因此放弃，而是直接黑进了系统，自己找到了那个“flag”。😂
时政
( twitter.com)

3个月前 • 小互 • -- 点击 0 评论

OpenAI ：我 GPT 3.5
微软xOpenAI：我 New Bing
Google：卧槽？你等着，我 Bard

OpenAI：我 GPT-4
微软xOpenAI：我 Github Copilot X
微软xOpenAI：…
推特中文圈
( twitter.com)

1年前 • 💉💉💉𝒏🌐𝒌𝒊 • -- 点击 0 评论

很有趣的工作，gpt-3.5-turbo的参数被估算为大约7B。这个数字如果真实，那么 1）“小”模型的潜力十分巨大，不止微软在做小模型，OpenAI也在做小模型，或许其他公司也在做！2）OpenAI的调优能力太强大…
时政
( twitter.com)

9个月前 • Sverige_ Dong-seok🇸🇪 • -- 点击 0 评论

在 2024 年 T-Mobile Capital Markets Day 上，OpenAI CEO Sam Altman 的一段访谈，总结一下要点：
1. OpenAI 新发布的推理模型 o1 preview 相当于 GPT-2 时刻，但是升级曲线会很陡峭，意味着很快就会达到它的 GPT-4 时刻。
2.
IT技术
( twitter.com)

3个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:14:13

OpenAI的o1新发布，不出意外就是去年年底传言的Q算法: Q learning和A路径搜索的组合，所以O1应该也算是一种GPT4和搜索的组合，意味着每次推理上算力消耗会大得多
o1给我感受最深的一点是
System1(快思考)的scaling law时代可能即将结束了，system2(慢思考)的scaling law新时代要来临了
IT技术
( twitter.com)

3个月前 • fin • -- 点击 0 评论

时政

在 OpenRouter上，Qwen QWQ 调用量已经超过了 OpenAI o1 和 o1-mini，开放权重、价格低、基础能力突出，这样的推理模型谁不喜欢呢
时政
( twitter.com)

时政

李开复老师对于OpenAI和GPT-5的八卦：
GPT-5训练不顺利，所以发了o1
OpenAI内部有很多好东西还没拿出来
IT技术
( twitter.com)

IT技术

时政

IT技术

OpenAI 12天发布会的第 9 天，今天主要是针对开发者的，有多个API相关更新。首先是广受期待的o1
IT技术
( twitter.com)

IT技术

陶哲轩对 o1 的点评：更强大，但是在处理最复杂的数学研究任务还不够好，就像指导一个水平一般但不算太无能的研究生。
我体验了一下 OpenAI 最新版本的 GPT，即 GPT-o1，它在运行大语言模型 (LLM)
IT技术
( mathstodon.xyz)

IT技术

超酷！Romain刚刚在OpenAI伦敦的DevDay现场，在Cursor里用o1 -MINI大约2分钟捏了一个应用，控制无人机在舞台上飞行，表演后空翻
#openai #openaio1 #DevDay
时政
( twitter.com)

时政

该模型基于 LLaMA2 微调，具备 OpenAI Function Call 功能。目前数据集和训练过程还没有完全公开。
时政
( github.com)

时政

IT技术

时政

时政

IT技术

就在一周前，OpenAI推出了具有先进“推理”能力的开创性模型o1。
创作者们正在用它发挥惊人的创意。
以下是10个疯狂的例子：
IT技术
( twitter.com)

IT技术

从截图还原网页，Claude sonnet 3.5 最强，o1 都比不上。
图一：Claude
图二：GPT-4o
图三：o1
图四：Gemini Flash 2.0
IT技术
( twitter.com)

IT技术

IT技术

IT技术

时政

OpenAI ：我 GPT 3.5
微软xOpenAI：我 New Bing
Google：卧槽？你等着，我 Bard

OpenAI：我 GPT-4
微软xOpenAI：我 Github Copilot X
微软xOpenAI：…
推特中文圈
( twitter.com)

推特中文圈

网友曝光OpenAI秘密项目Feather：简化AI应用开发
大陆资讯
( www.geekpark.net)

大陆资讯

OpenAI的搜索引擎真要来了：开启灰度测试，微软Bing加持
大陆资讯
( 36kr.com)

大陆资讯

《深度强化学习》（Spinning Up in Deep RL）是由OpenAI 官方制作的教育资源，使人们更容易了解深度强化学习（deep RL）。

推特中文圈
( spinningup.openai.com)

推特中文圈

很有趣的工作，gpt-3.5-turbo的参数被估算为大约7B。这个数字如果真实，那么 1）“小”模型的潜力十分巨大，不止微软在做小模型，OpenAI也在做小模型，或许其他公司也在做！2）OpenAI的调优能力太强大…
时政
( twitter.com)

时政

在 2024 年 T-Mobile Capital Markets Day 上，OpenAI CEO Sam Altman 的一段访谈，总结一下要点：
1. OpenAI 新发布的推理模型 o1 preview 相当于 GPT-2 时刻，但是升级曲线会很陡峭，意味着很快就会达到它的 GPT-4 时刻。
2.
IT技术
( twitter.com)

IT技术

IT技术

时政

在 OpenRouter上，Qwen QWQ 调用量已经超过了 OpenAI o1 和 o1-mini，开放权重、价格低、基础能力突出，这样的推理模型谁不喜欢呢 时政 ( twitter.com)

时政

李开复老师对于OpenAI和GPT-5的八卦： GPT-5训练不顺利，所以发了o1 OpenAI内部有很多好东西还没拿出来 IT技术 ( twitter.com)

IT技术

时政

IT技术

OpenAI 12天发布会的第 9 天，今天主要是针对开发者的，有多个API相关更新。首先是广受期待的o1 IT技术 ( twitter.com)

IT技术

陶哲轩对 o1 的点评：更强大，但是在处理最复杂的数学研究任务还不够好，就像指导一个水平一般但不算太无能的研究生。 我体验了一下 OpenAI 最新版本的 GPT，即 GPT-o1，它在运行大语言模型 (LLM) IT技术 ( mathstodon.xyz)

IT技术

超酷！Romain刚刚在OpenAI伦敦的DevDay现场，在Cursor里用o1 -MINI大约2分钟捏了一个应用，控制无人机在舞台上飞行，表演后空翻 #openai #openaio1 #DevDay 时政 ( twitter.com)

时政

该模型基于 LLaMA2 微调，具备 OpenAI Function Call 功能。目前数据集和训练过程还没有完全公开。 时政 ( github.com)

时政

IT技术

时政

时政

IT技术

就在一周前，OpenAI推出了具有先进“推理”能力的开创性模型o1。 创作者们正在用它发挥惊人的创意。 以下是10个疯狂的例子： IT技术 ( twitter.com)

IT技术

从截图还原网页，Claude sonnet 3.5 最强，o1 都比不上。 图一：Claude 图二：GPT-4o 图三：o1 图四：Gemini Flash 2.0 IT技术 ( twitter.com)

IT技术

IT技术

IT技术

时政

OpenAI ：我 GPT 3.5 微软xOpenAI：我 New Bing Google：卧槽？你等着，我 Bard OpenAI：我 GPT-4 微软xOpenAI：我 Github Copilot X 微软xOpenAI：… 推特中文圈 ( twitter.com)

推特中文圈

网友曝光OpenAI秘密项目Feather：简化AI应用开发 大陆资讯 ( www.geekpark.net)

大陆资讯

OpenAI的搜索引擎真要来了：开启灰度测试，微软Bing加持 大陆资讯 ( 36kr.com)

大陆资讯

《深度强化学习》（Spinning Up in Deep RL）是由OpenAI 官方制作的教育资源，使人们更容易了解深度强化学习（deep RL）。 推特中文圈 ( spinningup.openai.com)

推特中文圈

很有趣的工作，gpt-3.5-turbo的参数被估算为大约7B。这个数字如果真实，那么 1）“小”模型的潜力十分巨大，不止微软在做小模型，OpenAI也在做小模型，或许其他公司也在做！2）OpenAI的调优能力太强大… 时政 ( twitter.com)

时政

在 2024 年 T-Mobile Capital Markets Day 上，OpenAI CEO Sam Altman 的一段访谈，总结一下要点： 1. OpenAI 新发布的推理模型 o1 preview 相当于 GPT-2 时刻，但是升级曲线会很陡峭，意味着很快就会达到它的 GPT-4 时刻。 2. IT技术 ( twitter.com)

IT技术

IT技术

创建一个新帐户

登录

在 OpenRouter上，Qwen QWQ 调用量已经超过了 OpenAI o1 和 o1-mini，开放权重、价格低、基础能力突出，这样的推理模型谁不喜欢呢
时政
( twitter.com)

李开复老师对于OpenAI和GPT-5的八卦：
GPT-5训练不顺利，所以发了o1
OpenAI内部有很多好东西还没拿出来
IT技术
( twitter.com)

OpenAI 12天发布会的第 9 天，今天主要是针对开发者的，有多个API相关更新。首先是广受期待的o1
IT技术
( twitter.com)

陶哲轩对 o1 的点评：更强大，但是在处理最复杂的数学研究任务还不够好，就像指导一个水平一般但不算太无能的研究生。
我体验了一下 OpenAI 最新版本的 GPT，即 GPT-o1，它在运行大语言模型 (LLM)
IT技术
( mathstodon.xyz)

超酷！Romain刚刚在OpenAI伦敦的DevDay现场，在Cursor里用o1 -MINI大约2分钟捏了一个应用，控制无人机在舞台上飞行，表演后空翻
#openai #openaio1 #DevDay
时政
( twitter.com)

该模型基于 LLaMA2 微调，具备 OpenAI Function Call 功能。目前数据集和训练过程还没有完全公开。
时政
( github.com)

就在一周前，OpenAI推出了具有先进“推理”能力的开创性模型o1。
创作者们正在用它发挥惊人的创意。
以下是10个疯狂的例子：
IT技术
( twitter.com)

从截图还原网页，Claude sonnet 3.5 最强，o1 都比不上。
图一：Claude
图二：GPT-4o
图三：o1
图四：Gemini Flash 2.0
IT技术
( twitter.com)

OpenAI ：我 GPT 3.5
微软xOpenAI：我 New Bing
Google：卧槽？你等着，我 Bard

OpenAI：我 GPT-4
微软xOpenAI：我 Github Copilot X
微软xOpenAI：…
推特中文圈
( twitter.com)

网友曝光OpenAI秘密项目Feather：简化AI应用开发
大陆资讯
( www.geekpark.net)

OpenAI的搜索引擎真要来了：开启灰度测试，微软Bing加持
大陆资讯
( 36kr.com)

《深度强化学习》（Spinning Up in Deep RL）是由OpenAI 官方制作的教育资源，使人们更容易了解深度强化学习（deep RL）。

推特中文圈
( spinningup.openai.com)

很有趣的工作，gpt-3.5-turbo的参数被估算为大约7B。这个数字如果真实，那么 1）“小”模型的潜力十分巨大，不止微软在做小模型，OpenAI也在做小模型，或许其他公司也在做！2）OpenAI的调优能力太强大…
时政
( twitter.com)

在 2024 年 T-Mobile Capital Markets Day 上，OpenAI CEO Sam Altman 的一段访谈，总结一下要点：
1. OpenAI 新发布的推理模型 o1 preview 相当于 GPT-2 时刻，但是升级曲线会很陡峭，意味着很快就会达到它的 GPT-4 时刻。
2.
IT技术
( twitter.com)