DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。

发布时间: 2025-01-21 04:30:04

1分

数据加载中

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。
同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。
时政
( twitter.com )

DeepSeek R1的论文非常值得仔细看，粗略扫了下，他们只用了GRPO+Reward Model在线RL就可以就训练出思考模型。而且很诚实的把PRM、MCTS放到失败尝试中。

同时这也证明领域级思考模型的训练目前的技术完全可以复现，只需要想办法合成对应的cot训练数据。

明天仔细研读下，并着手在实际的领域中尝试落地。

Markdown支持

评论加载中...

您可能感兴趣的：更多

🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!
🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!
🌐 Try it now at
#DeepSeek
时政
( chat.deepseek.com)

2个月前 • DeepSeek • -- 点击 0 评论

#工程师学习看到一篇不错的教程「如何写计算机领域的论文」，言简意赅的讲清楚了论文的内容重点、何类技术结果、文章的结构以及对应的每一部分的详细说明，非常值得一读。
🤖
IT技术
( www.cs.columbia.edu)

10个月前 • Tw93 • -- 点击 0 评论

仔细读了这篇深度调查。这篇长文非常值得初到海外的墙里人（有钱，不愁衣食的某些人某些二代除外）认真读一遍。不仅是了解海外情况的复杂性，而且也问自己几个问题：…
时政
( twitter.com)

8个月前 • 蔡霞 • -- 点击 0 评论

deepseek v3钱钟书笔风写的教程非常舒服斯基，爱了。
prompt:
使用真实案例，写一个库，然后本地安装，然后写另外一个项目，使用了这个库，一步步展示，详细些，文笔：钱钟书
时政
( twitter.com)

24天前 • linear uncle • -- 点击 0 评论

刚才的Space讨论非常热烈，精彩，也很专业。非常感谢几个币圈资深人士上台发言，给我们科普和澄清了很多事情。
关于李颖发币，有如下几个细节值得关注：
时政
( twitter.com)

1个月前 • 勃勃OC • -- 点击 0 评论

非常非常值得一看的来自 LangChain 团队的 RAG 视频：当 LLM 的上下文足够长了就不需要 RAG 了吗？
—— RAG在长上下文大语言模型(LLM)中的应用探讨…
IT技术
( twitter.com)

9个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:21:08

酷！DeepSeek刚刚开源了了DeepSeek V2.5的最终版微调模型： DeepSeek-V2.5-1210，新增联网搜索功能
提升了数学、代码、写作、角色扮演等能力
优化了文件上传功能
新增联网搜索功能
#DeepSeek #LLM
时政
( twitter.com)

1个月前 • AIGCLINK • -- 点击 0 评论

推荐阅读：《万字长文深度解析Sora的核心技术，解密OpenAI掌控时空的秘密武器》
by
转自作者微博：我仔细翻阅了Sora引用的论文，仔细拼凑出了Sora训练的核心秘密——时空图像块（Space…
IT技术
( twitter.com)

11个月前 • 宝玉 • -- 点击 0 评论

这个太逗了，大家要看。播主用Claude Sonnect 3.5和DeepSeek V3对比做一个网站（判断是否放弃博士改做其他职业的评估网站），结果是DeepSeek胜利，而且非常有趣，直接计算博士和OnlyFans的利弊取舍。
时政
( twitter.com)

24天前 • Michael Anti • -- 点击 • 下载视频 0 评论

00:03:14

时政

🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power! 🔍 o1-preview-level performance on AIME & MATH benchmarks. 💡 Transparent thought process in real-time. 🛠️ Open-source models & API coming soon! 🌐 Try it now at #DeepSeek 时政 ( chat.deepseek.com)

时政

#工程师学习 看到一篇不错的教程「如何写计算机领域的论文」，言简意赅的讲清楚了论文的内容重点、何类技术结果、文章的结构以及对应的每一部分的详细说明，非常值得一读。 🤖 IT技术 ( www.cs.columbia.edu)

IT技术

仔细读了这篇深度调查。这篇长文非常值得初到海外的墙里人（有钱，不愁衣食的某些人某些二代除外）认真读一遍。不仅是了解海外情况的复杂性，而且也问自己几个问题：… 时政 ( twitter.com)

时政

deepseek v3钱钟书笔风写的教程非常舒服斯基，爱了。 prompt: 使用真实案例，写一个库，然后本地安装，然后写另外一个项目，使用了这个库，一步步展示，详细些，文笔：钱钟书 时政 ( twitter.com)

时政

刚才的Space讨论非常热烈，精彩，也很专业。非常感谢几个币圈资深人士上台发言，给我们科普和澄清了很多事情。 关于李颖发币，有如下几个细节值得关注： 时政 ( twitter.com)

时政

非常非常值得一看的来自 LangChain 团队的 RAG 视频：当 LLM 的上下文足够长了就不需要 RAG 了吗？ —— RAG在长上下文大语言模型(LLM)中的应用探讨… IT技术 ( twitter.com)

IT技术

酷！DeepSeek刚刚开源了了DeepSeek V2.5的最终版微调模型： DeepSeek-V2.5-1210，新增联网搜索功能 提升了数学、代码、写作、角色扮演等能力 优化了文件上传功能 新增联网搜索功能 #DeepSeek #LLM 时政 ( twitter.com)

时政

推荐阅读：《万字长文深度解析Sora的核心技术，解密OpenAI掌控时空的秘密武器》 by 转自作者微博：我仔细翻阅了Sora引用的论文，仔细拼凑出了Sora训练的核心秘密——时空图像块（Space… IT技术 ( twitter.com)

IT技术

这个太逗了，大家要看。播主用Claude Sonnect 3.5和DeepSeek V3对比做一个网站（判断是否放弃博士改做其他职业的评估网站），结果是DeepSeek胜利，而且非常有趣，直接计算博士和OnlyFans的利弊取舍。 时政 ( twitter.com)

时政

创建一个新帐户

登录

🚀 DeepSeek-R1-Lite-Preview is now live: unleashing supercharged reasoning power!
🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!
🌐 Try it now at
#DeepSeek
时政
( chat.deepseek.com)

#工程师学习看到一篇不错的教程「如何写计算机领域的论文」，言简意赅的讲清楚了论文的内容重点、何类技术结果、文章的结构以及对应的每一部分的详细说明，非常值得一读。
🤖
IT技术
( www.cs.columbia.edu)

仔细读了这篇深度调查。这篇长文非常值得初到海外的墙里人（有钱，不愁衣食的某些人某些二代除外）认真读一遍。不仅是了解海外情况的复杂性，而且也问自己几个问题：…
时政
( twitter.com)

deepseek v3钱钟书笔风写的教程非常舒服斯基，爱了。
prompt:
使用真实案例，写一个库，然后本地安装，然后写另外一个项目，使用了这个库，一步步展示，详细些，文笔：钱钟书
时政
( twitter.com)

刚才的Space讨论非常热烈，精彩，也很专业。非常感谢几个币圈资深人士上台发言，给我们科普和澄清了很多事情。
关于李颖发币，有如下几个细节值得关注：
时政
( twitter.com)

非常非常值得一看的来自 LangChain 团队的 RAG 视频：当 LLM 的上下文足够长了就不需要 RAG 了吗？
—— RAG在长上下文大语言模型(LLM)中的应用探讨…
IT技术
( twitter.com)

酷！DeepSeek刚刚开源了了DeepSeek V2.5的最终版微调模型： DeepSeek-V2.5-1210，新增联网搜索功能
提升了数学、代码、写作、角色扮演等能力
优化了文件上传功能
新增联网搜索功能
#DeepSeek #LLM
时政
( twitter.com)

推荐阅读：《万字长文深度解析Sora的核心技术，解密OpenAI掌控时空的秘密武器》
by
转自作者微博：我仔细翻阅了Sora引用的论文，仔细拼凑出了Sora训练的核心秘密——时空图像块（Space…
IT技术
( twitter.com)

这个太逗了，大家要看。播主用Claude Sonnect 3.5和DeepSeek V3对比做一个网站（判断是否放弃博士改做其他职业的评估网站），结果是DeepSeek胜利，而且非常有趣，直接计算博士和OnlyFans的利弊取舍。
时政
( twitter.com)