用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。方法来自之前蒸馏QwQ的Sky-T1。P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。1/2

发布时间: 2025-01-23 10:40:14

1分

数据加载中

关注推特

收听电报

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。
与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。
方法来自之前蒸馏QwQ的Sky-T1。
P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。
1/2
时政
( twitter.com )

10天前由九原客提交

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

别人犯错是因为没读paper，这位是能把paper读错
这是说蒸馏的目标小模型是qwen和llama，意思是把R1蒸馏到他们上面去，而不是从他们身上蒸馏下来
DeepSeek V3 用到的改进过的MoE，DeepSeek独创的MLA，n=1的MTP，这些llama都没有啊。当然他们都是transformer架构了。
时政
( twitter.com)

6天前 • 勃勃OC • -- 点击 0 评论

李老师讲课，什么是大模型的蒸馏(distillation)，以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控
时政
( twitter.com)

前天 • Jeff Li • -- 点击 0 评论

DeepSeek 剧情反转太快，美国总统川普的人工智能主管萨克斯（David Sacks）表示，有大量证据表明，DeepSeek依靠 “蒸馏”OpenAI
时政
( twitter.com)

3天前 • 蔡慎坤 • -- 点击 0 评论

转：关于 DeepSeek 的研究和思考 (Archerman Capital)
关于这几天很火的 DeepSeek, 我们 (Archerman Capital) 做了一些研究和思考, 和大家分享, enjoy! 灰色部分是技术细节, 不感兴趣的可略过。
几个事实
1) DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的, 但
IT技术
( twitter.com)

6天前 • 宝玉 • -- 点击 0 评论

最近，中国AI公司 Deepseek 的R1模型一经发布，就引起了全世界广泛的关注。
这件事引发了极大的震动，也似乎象征着中国正在突破过去几年来自美国的科技封锁。但是于此同时，非法蒸馏，言论审查，针对Deepseek的争议也越来越多。
时政
( twitter.com)

22分钟前 • 李老师不是你老师 • -- 点击 0 评论

AWS也支持DeepSeek R1了
IT技术
( twitter.com)

前天 • 宝玉 • -- 点击 0 评论

DeepSeek R1 System Prompt:
You are DeepSeek-R1, an AI assistant created exclusively by the Chinese Company DeepSeek. You'll provide helpful, harmless, and detailed responses to all user inquiries. For comprehensive details about models and products, please refer to the official
IT技术
( twitter.com)

7天前 • 宝玉 • -- 点击 0 评论

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。
o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。
RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking
时政
( twitter.com)

6天前 • 九原客 • -- 点击 0 评论

特朗普的AI沙皇：DeepSeek的AI模型是用蒸馏技术跟ChatGPT学习的—— 《华尔街日报》美国总统特朗普的AI沙皇戴维·萨克斯周二表示，中国人工智能公司DeepSeek用OpenAI的内容训练出了风靡全球的新模型。
时政
( twitter.com)

4天前 • 李老师不是你老师 • -- 点击 0 评论

时政

时政

李老师讲课，什么是大模型的蒸馏(distillation)，以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控 时政 ( twitter.com)

时政

DeepSeek 剧情反转太快，美国总统川普的人工智能主管萨克斯（David Sacks）表示，有大量证据表明，DeepSeek依靠 “蒸馏”OpenAI 时政 ( twitter.com)

时政

IT技术

时政

AWS也支持DeepSeek R1了 IT技术 ( twitter.com)

IT技术

IT技术

时政

特朗普的AI沙皇：DeepSeek的AI模型是用蒸馏技术跟ChatGPT学习的—— 《华尔街日报》 美国总统特朗普的AI沙皇戴维·萨克斯周二表示，中国人工智能公司DeepSeek用OpenAI的内容训练出了风靡全球的新模型。 时政 ( twitter.com)

时政

创建一个新帐户

登录

李老师讲课，什么是大模型的蒸馏(distillation)，以及我们应该如何看DeepSeek遭遇的“模型蒸馏”指控
时政
( twitter.com)

DeepSeek 剧情反转太快，美国总统川普的人工智能主管萨克斯（David Sacks）表示，有大量证据表明，DeepSeek依靠 “蒸馏”OpenAI
时政
( twitter.com)

AWS也支持DeepSeek R1了
IT技术
( twitter.com)

特朗普的AI沙皇：DeepSeek的AI模型是用蒸馏技术跟ChatGPT学习的—— 《华尔街日报》美国总统特朗普的AI沙皇戴维·萨克斯周二表示，中国人工智能公司DeepSeek用OpenAI的内容训练出了风靡全球的新模型。
时政
( twitter.com)