这个人的理论很有意思总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为

发布时间: 2025-01-28 16:50:38

1分

数据加载中

关注推特

收听电报

2

1

0

这个人的理论很有意思
总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？
他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为
时政
( twitter.com )

昨天由勃勃OC 提交

这个人的理论很有意思

总而言之，为什么之前所有用简单RL实现模型推理的工作都失效了，但DeepSeek却能一夜之间成功？到底发生了什么？

他的理论是：因为过去2年，LLM崛起之后，人们在LLM上进行了大量的CoT（思维链）工作；这些工作混入了现在的训练数据里，改变了新训练大语言模型的行为

也就是说，训练数据被污染了。LLM的输出泄露到了信的文本数据之中；这里面恰巧就包含了很多模型自己的CoT的标注

这样，在此基础上训练出来的DeepSeek V3实际上是和CoT天然对齐的

那么，在V3上再进行RL，就显得额外简单

如果这个理论是真的，那么Meta/OpenAI想要直接上RL，可能还没这么简单。至少他们的Base Model或许需要重新训练一下？

但问题是，没人知道DeepSeek的数据是什么啊。DeepSeek的人能透露一下，他们的14T数据里，有多少CoT标注吗？

谢谢大家

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

川特勒为什么明知不可为而为之？为什么明知不该言而言之？无非就是为了骗取蠢人、坏人或又蠢又坏者手中的选票而已。川特勒明知不该言而言之，就是为了取悦这些要么蠢要么坏要么又蠢又坏者；川特勒明知不可为而为之，就是为了敷衍要么蠢要么坏要么又蠢又坏者。期待下一个被判决违法违宪的川特勒总统令。
时政
( twitter.com)

前天 • 程益中 • -- 点击 0 评论

2

3

2

2

这个美女是谁？见到张大导演的肢体语言为什么这么奇怪？这是什么意思？🤔
时政
( twitter.com)

5个月前 • 貓神•華語時政新聞 • -- 点击 0 评论

3

2

1

1

什么是言论自由，什么是仇恨言论？为什么你觉得自己在行使言论自由却被批成仇恨言论？这道理很简单我再给大家讲一遍：
我们进步小将掌握着言论自由的最终解释权，我们进步的仇恨言论是自由，而你反动的言论自由则是仇恨。
美支大选在即，提醒大家注意复习进步学说，温故支新。
时政
( twitter.com)

6个月前 • 空空 🌟 狞猫世界第一可爱！ • -- 点击 0 评论

4

2

1

1

咱不兴这样断句哈😧！总理不举，钱财和权力还有什么意思😨
时政
( twitter.com)

11个月前 • Ignatius Lee 🚁🌋☭⃠ • -- 点击 0 评论

5

4

3

3

养老保险？总而言之一个人挺好的
时政
( twitter.com)

4个月前 • 駱駝王子🇯🇵🇹🇼🇺🇦🇭🇰🇺🇸🇮🇱 • -- 点击 • 下载视频 0 评论

00:01:50

6

3

2

2

这是谁？为什么这么🔥？
一个人拍婚纱照是什么意思？🤔
时政
( twitter.com)

5个月前 • 貓神•華語時政新聞 • -- 点击 • 下载视频 0 评论

00:00:33

7

2

1

1

【从教材理论开始，为什么凯恩斯被误读得如此之深？】这位给人“经济思想艰深”印象的思考者，十分善于文辞，若以英文论，他的写作鲜活而优美，按理说与晦涩原本没有关系，与“读不懂”似乎也没有必然关系。他终究还是被曲解了。他被经典化的过程，大概就是一个被误读的过程。
大陆资讯
( mp.weixin.qq.com)

1年前 • 孤独寂寞冷 • -- 点击 0 评论

8

4

3

3

不知道从什么时候开始，中国民间经常流传这种战争恐慌谣言。这是个很有意思的现象，为什么中国民众会把现实社会困境折射成对战争和饥荒的恐慌？
时政
( twitter.com)

6个月前 • Ignatius Lee • -- 点击 0 评论

9

4

3

3

网友“巧遇”新西兰总理。看见有人评论：这些腐朽的视频再不要传播了，老是这么搞有意思吗？你这让我们村长都脸红。
时政
( twitter.com)

5个月前 • Jacobson🌎🌸贴贴BOT • -- 点击 • 下载视频 0 评论

00:00:48

0.14654 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特