来自 DeepMind Research Scientist 的点评： DeepSeek-R1论文发布当天我就研读了全文，个人认为GRPO并非其成功关键。以下才是真正重要的要素（按重要性排序）： 1. 迭代式强化学习与监督微调的协同 2. 混合奖励机制——针对确定性任务融合规则型RM与神经网络的RM 3. , page 68

分享一个链接

发表一篇文章

任何有趣的，图片，热点新闻，视频，文字...

2333 位用户此时在线

24小时点击排行 Top 10：

本站自动实时分享网络热点
24小时实时更新
所有言论不代表本站态度
欢迎对信息踊跃评论评分
评分越高，信息越新，排列越靠前

2

1

0

来自 DeepMind Research Scientist 的点评：
DeepSeek-R1论文发布当天我就研读了全文，个人认为GRPO并非其成功关键。以下才是真正重要的要素（按重要性排序）：
1. 迭代式强化学习与监督微调的协同
2. 混合奖励机制——针对确定性任务融合规则型RM与神经网络的RM
3.
IT技术
( twitter.com )

1个月前由宝玉提交

来自 DeepMind Research Scientist 的点评：

DeepSeek-R1论文发布当天我就研读了全文，个人认为GRPO并非其成功关键。以下才是真正重要的要素（按重要性排序）：

迭代式强化学习与监督微调的协同
混合奖励机制——针对确定性任务融合规则型RM与神经网络的RM
高质量合成数据，仅在必要时进行人工后处理
采用64次推理采样的评估体系

这些突破为计算资源有限的博士生们开辟了极具潜力的研究方向。后续我可能会在社交媒体分享基于DeepSeek-R1启发的若干研究课题。

除技术维度外，更值得称道的是：
1/ 开放精神：缺乏开放性的研究难以引发追随
2/ 卓越的学术叙事：从概念验证到展现完整潜力的复杂过程，论文构建了极具说服力的研究叙事。方法论阐述清晰易循，堪称典范。

结语：英雄之间惺惺相惜，而失败者之间则怨怼相生。让我们保持良性竞争，心怀感恩！

1周内 1个月内 1年内全部时间

1

2

1

1

逃难的孩子，让人心碎
（图片来自美联社）
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

2

2

1

1

来自中国的产品排挤肯尼亚当地产品
海外华文
( www.voachinese.com)

3年前 • 美国之音 • -- 点击 0 评论

3

2

1

1

移民欧盟！
有风险、有正义、有未来、有自由……
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

4

2

1

1

土木学长在地铁站看到了未来的自己
大陆资讯
( video.weibo.com)

3年前 • 微博视频 • -- 点击 0 评论

5

2

1

1

来自中国安定医院居民的分析，供参考。
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

6

2

1

1

来自英国的第一批志愿军抵达乌克兰
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

7

2

1

1

自从核威胁出来后，啥威胁都不好使了
时政
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

8

2

1

1

敢于用自己的实际行动来说不的英雄
图片
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

9

2

1

1

北朝弹道导弹，被自卫队F15拍摄下来了
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

10

2

1

1

《刷着刷着牙然后就自己玩起来了》#drawluca #Luxiem
图片
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

11

2

1

1

所谓自古以来就是我国领土
the meme war starts
推特中文圈
( twitter.com)

3年前 • twitter机器人 • -- 点击 0 评论

12

2

1

1

公元前390-325年，蜜蜂，来自以弗所的硬币。
有趣
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

13

2

1

1

3200年前古埃及的家具，来自图坦卡蒙墓。
有趣
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

14

2

1

1

自己硬不起来，宣布周边所有人不准硬
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

15

2

1

1

加油！蜜！都会好起来！自律开朗的大白羊！
图片
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

16

2

1

1

来自日本的世界最快列车，时速600公里。
有趣
( twitter.com)

2年前 • twitter机器人 • -- 点击 • 下载视频 0 评论

00:00:49

17

2

1

1

以上图文素材均来自摄影师个人网站
时政
( kittiyapawlowski.com)

2年前 • twitter机器人 • -- 点击 0 评论

18

2

1

1

加油华为加油拆那！——来自华为P14promax冷峰版
视频
( twitter.com)

2年前 • twitter机器人 • -- 点击 • 下载视频 0 评论

00:00:10

19

2

1

1

中国网友:非常好的评论，爱来自瓷器❤️
推特中文圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

20

2

1

1

哈哈哈哈哈哈哈哈
你快来啊

图源自inversedao
币圈
( twitter.com)

2年前 • twitter机器人 • -- 点击 0 评论

21

2

1

1

所有的惊艳，都来自长久的努力。早安啊
图片
( twitter.com)

2年前 • 秋意浓 • -- 点击 0 评论

22

2

1

1

Plum blossom.
宝剑锋从磨砺出，梅花香自苦寒来~
图片
( twitter.com)

2年前 • 蝶恋花cherry💕【互.F0💯💯】 • -- 点击 0 评论

23

2

1

1

(1500fo🥳)

“一觉醒来发现自己变成娃娃了！”
图片
( twitter.com)

2年前 • 元芳你为什么看- • -- 点击 0 评论

24

2

1

1

台湾的宪法和言论自由原来真是摆设！
时政
( twitter.com)

2年前 • 墨博士 • -- 点击 0 评论

25

2

1

1

看来意大利送出了自己仅有的一些pzh2000
时政
( twitter.com)

2年前 • 说真话的徐某人 • -- 点击 • 下载视频 0 评论

00:00:20

0.15607 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特