有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking

发布时间: 2025-01-27 15:00:18

1分

数据加载中

关注推特

收听电报

2

1

0

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。
o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。
RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking
时政
( twitter.com )

1个月前由九原客提交

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。

o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。

RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking 就很好），但它是第一家说出来的，善莫大焉。

为全球降低试错成本，就是开源最大的价值，节约的是全人类的资源。

另外 Kimi 的论文也不错，在数据和Reward方面比DeepSeek 更详细一些，也推荐看看。

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。
最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。
因此，将 DeepSeek R1 称为完全无监督并不公平。
That's why DeepSeek R1-zero doesn't
时政
( twitter.com)

1个月前 • 勃勃OC • -- 点击 0 评论

2

2

1

1

o3-mini是专门在代码问题上微调的。r1同时在代码和数学题上微调。这个例子显示，r1的代码能力并不如o3-mini。DeepSeek并没有“魔法”，技术上也未超越OAI。数据决定模型，RL也是。

时政
( twitter.com)

1个月前 • 勃勃OC • -- 点击 • 下载视频 0 评论

00:00:21

3

3

2

2

No.
It shows that RL alone can lead to the emergence of reasoning.
It’s a profound discovery. It’s now one of the realistic path to AGI. Anyone who had doubts that LLM is just a “stochastic parrot” can now shush.
Deepseek R1
时政
( twitter.com)

1个月前 • Eric Xu (e/Mettā) • -- 点击 0 评论

4

2

1

1

#分享从 DeepSeek R1 了解推理模型的训练的四种方法
1. Inference-time scaling
在推理过程中增加计算资源以提高输出质量。一个经典的例子，就是 CoT，在 Prompt 中包含类似 `Think step by step` 的短语，它通过输出更多的 token 增加了计算资源。
2. 纯 RL
DeepSeek-R1-Zero
时政
( twitter.com)

1个月前 • nazha • -- 点击 0 评论

5

2

1

1

R1 Zero 的秘密 OpenAI 一定知道但是不说，DeepSeek 捅破后已经有好几个复刻项目了。
这个项目仅用Math8k 数据集复刻R1，同样发现 test-time rl scaling law. 效果好于之前论文。
确实就是一层窗户纸，反过来看很简单，很第一性，很合理。但是能去这么做的，很少。
时政
( twitter.com)

1个月前 • 九原客 • -- 点击 0 评论

6

2

1

1

AWS也支持DeepSeek R1了
IT技术
( twitter.com)

1个月前 • 宝玉 • -- 点击 0 评论

7

3

2

2

DeepSeek R1 System Prompt:
You are DeepSeek-R1, an AI assistant created exclusively by the Chinese Company DeepSeek. You'll provide helpful, harmless, and detailed responses to all user inquiries. For comprehensive details about models and products, please refer to the official
IT技术
( twitter.com)

1个月前 • 宝玉 • -- 点击 0 评论

8

5

4

4

拾象：DeepSeek r1 闭门学习讨论 | Best Ideas Vol 3
「Best Ideas 闭门讨论会 Vol.3」聚焦在引爆全球 AI 社区的 DeepSeek r1，本篇纪要是我们对闭门会上参与讨论的嘉宾成员的观点的总结，不代表任何具体个人及机构观点立场。
I. DeepSeek
1. DeepSeek 有好口碑的原因在于是第一个把复现 MoE、ol
IT技术
( twitter.com)

1个月前 • 宝玉 • -- 点击 0 评论

9

2

1

1

下图是一位墙内人士对DeepSeek的评论，其中提到的内控密码值得引起注意，因此我不打算安装使用deepseek r1。
时政
( twitter.com)

1个月前 • 韩连潮 • -- 点击 0 评论

0.05672 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特