我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈Deepseek-R1这次的训练，仅利用了rule-based outcome

发布时间: 2025-01-28 15:50:17

1分

数据加载中

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈
Deepseek-R1这次的训练，仅利用了rule-based outcome
时政
( twitter.com )

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈

Deepseek-R1这次的训练，仅利用了rule-based outcome reward，也就是数学题答案对错/测代码能不能跑通，训练出来了超强的逻辑，在math/code打平了O1。但是正如他们论文中也有提及，这样的训练是有损于模型表达的，所以经常能看到Deepseek的回答是有内在逻辑的，但是缺乏对逻辑之间转折的解释，以及观点之间细粒度的桥接。

另外也不是问题都需要推理，很多领域还需要的是经验性的判断，约定成俗的规则，抽象概念的理解，道德价值观的考量，模型在这些问题强行推理就会答偏。

能不能在开放问题上得到符合人类标准的答案取决于RLHF，简单来说就是让人给模型的答案打分，然后训练模型在人类那里得到更高的分数。这里面算法能带来的提升很有限，主要是人力资源的较量：当模型越聪明越专业，我们就一定需要更加专业的领域专家来进行打分，毕竟一小时5刀的外包标注员是不可能对人文，艺术，法律，医学，生物等等专业领域的回答正确打分的---AI本身的专业度已经远远超过普通人。当然要雇佣更高级的专家进行标注的成本也是很高的。

openai对于RLHF有很深的理解，半年前就已经开始已经招聘相关领域博士来对模型回答进行标注。我们现在看到deepseek通过R1的训练已经达到o1的逻辑水平，差的，可能就在于人类专家对齐

所以，合理推测，类deepseek推理训练+博士级别的人类反馈，可能就是openai的所有秘密

Markdown支持

评论加载中...

您可能感兴趣的：更多

Even as India & China announce de-escalation & troop withdrawal in parts of Demchok & Depsang, its key to note the dismantling has been limited to impermanent structures like tents & shade canopies, the overall military setup remains intact, graphic below 👇
时政
( twitter.com)

3个月前 • Damien Symon • -- 点击 0 评论

OpenAI + Figure
conversations with humans, on end-to-end neural networks:
→ OpenAI is providing visual reasoning & language understanding
→ Figure's neural networks are delivering fast, low level, dexterous robot actions
(thread below)

时政
( twitter.com)

10个月前 • Brett Adcock • -- 点击 • 下载视频 0 评论

00:02:34

大型纪录片，<猪的一生> 这部片，过于精甚细腻了…
时政
( twitter.com)

4个月前 • 班昭姐姐 • -- 点击 • 下载视频 0 评论

00:01:26

OpenAI终止对中国提供API服务。人工智能(AI)大事件：OpenAl官网公告显示，目前OpenAI的API已向190个国家和地区开放，中国内地和香港，暂不在API服务开放名单中。据说，余承东在和周鸿祎直播中吹牛逼，说有华为在，中国的AI技术绝不会落后。OpenAI听了很生气，就直接给禁了。周鸿祎之前直播，说拿他与黄
时政
( twitter.com)

7个月前 • 亚洲金融 Asia Finance • -- 点击 • 下载视频 0 评论

00:00:43

Foundational model wars over the past 12 months
OpenAI vs Google vs Anthropic vs 01 AI vs Meta vs Cohere vs Alibaba vs Mistral vs Databricks vs Nous Research & 10000+ more
时政
( twitter.com)

8个月前 • Chief AI Officer • -- 点击 • 下载视频 0 评论

00:00:27

近期一直在折腾 OpenAI API 分发系统 & GPT 网页客户端，试了 N 多开源项目，分享几款我认为最好用的给大家。
⬇️OpenAI API 分发系统⬇️
One API
One API (新 UI)
New API (在用)
------
⬇️GPT 网页客户端⬇️
Open WebUI…
IT技术
( twitter.com)

10个月前 • Geek • -- 点击 0 评论

1/2
Detalle de manto Paracas...
Los Paracas fueron extraordinarios tejedores, diestros en la combinación de la fibra de algodón y la de camélidos como la alpaca y la vicuña.
Sus textiles combinan una avanzada técnica de elaboración con una decoración de gran policromía y ...
时政
( twitter.com)

10个月前 • Ediciones Región. • -- 点击 0 评论

La forme physique de Niklas Süle à deux semaines de la finale de Ligue des Champions 😬
时政
( twitter.com)

8个月前 • Vibes Foot • -- 点击 0 评论

措辞变化：
失业 -> 待业 -> 灵活就业 -> 提前退休
时政
( twitter.com)

8个月前 • 萤草²✨ • -- 点击 0 评论

我之前说OpenAI>Deepseek，所以追赶OpenAI的临门一脚到底差在哪里？先说结论，我认为是超高质量的RLHF (Reinforcement Learning from Human Feedback)，也就是人类反馈 Deepseek-R1这次的训练，仅利用了rule-based outcome 时政 ( twitter.com )

时政

Even as India & China announce de-escalation & troop withdrawal in parts of Demchok & Depsang, its key to note the dismantling has been limited to impermanent structures like tents & shade canopies, the overall military setup remains intact, graphic below 👇 时政 ( twitter.com)

时政

OpenAI + Figure conversations with humans, on end-to-end neural networks: → OpenAI is providing visual reasoning & language understanding → Figure's neural networks are delivering fast, low level, dexterous robot actions (thread below) 时政 ( twitter.com)

时政

大型纪录片，&lt;猪的一生&gt; 这部片，过于精甚细腻了… 时政 ( twitter.com)

时政

时政

Foundational model wars over the past 12 months OpenAI vs Google vs Anthropic vs 01 AI vs Meta vs Cohere vs Alibaba vs Mistral vs Databricks vs Nous Research & 10000+ more 时政 ( twitter.com)

时政

近期一直在折腾 OpenAI API 分发系统 & GPT 网页客户端，试了 N 多开源项目，分享几款我认为最好用的给大家。 ⬇️OpenAI API 分发系统⬇️ One API One API (新 UI) New API (在用) ------ ⬇️GPT 网页客户端⬇️ Open WebUI… IT技术 ( twitter.com)

IT技术

时政

La forme physique de Niklas Süle à deux semaines de la finale de Ligue des Champions 😬 时政 ( twitter.com)

时政

措辞变化： 失业 -> 待业 -> 灵活就业 -> 提前退休 时政 ( twitter.com)

时政

创建一个新帐户

登录