DeepSeek火出圈的这十几天，其实也是噪音最多的一段时间，说实话大部分的讨论成品都有种加班硬赶KPI的味道，是人是鬼都在掰扯，有留存价值的屈指可数，倒是有两期播客让我听后受益匪浅，非常推荐。

发布时间: 2025-02-11 20:50:17

1分

数据加载中

关注推特

收听电报

2

1

0

DeepSeek火出圈的这十几天，其实也是噪音最多的一段时间，说实话大部分的讨论成品都有种加班硬赶KPI的味道，是人是鬼都在掰扯，有留存价值的屈指可数，倒是有两期播客让我听后受益匪浅，非常推荐。
时政
( twitter.com )

4小时前由阑夕提交

DeepSeek火出圈的这十几天，其实也是噪音最多的一段时间，说实话大部分的讨论成品都有种加班硬赶KPI的味道，是人是鬼都在掰扯，有留存价值的屈指可数，倒是有两期播客让我听后受益匪浅，非常推荐。

一个是张小珺请来加州伯克利大学AI实验室博士潘家怡对DeepSeek论文的逐句讲解，接近3个小时的高密度输出，非常能杀脑细胞，但杀完之后分泌出来的内啡肽，也含量爆炸。

另一个是Ben Thompson关于DeepSeek的3集播客合集，加起来1个多小时，这哥们是News Letter的开创者，也是全球最懂技术的分析师之一，常年旅居台北，对中国/亚洲的近距离洞察比美国同行要高很多。

先说张小珺的那期，嘉宾潘家怡当时是在读完DeepSeek的论文之后，最快开发出了小规模复现R1-Zero模型的项目，在GitHub上已经接近1万Stars。

这种薪火相传式的知识接力，其实是技术领域理想主义的投射，就像月之暗面的研究员Flood Sung也说，Kimi的推理模型k1.5最初就是基于OpenAI放出来的两个视频得到了启发，更早一点，当Google发布「Attention Is All You Need」之后，OpenAI立刻就意识到了Transformer的未来，智慧的流动性才是一切进步的先决条件。

所以大家才对Anthropic创始人Dario Amodei那番「科学没有国界，但科学家有祖国」的封锁表态大为失望，他在否定竞争的同时，也在挑战基本常识。

继续回到播客内容上，我还是试着划些重点出来给你们看，推荐有时间的还是听完原版：（1/n）

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

有人说DeepSeek R1 的 RL 范式也没啥创新，其实点不在这里。
o1出来后纷纷开始复刻，OpenAI 也不说怎么实现的，也不展示COT数据。所以说蒸馏o1纯属扯淡，OpenAI 防的死死的。
RL 论文上百篇方法几十种，最后 DeepSeek 肯定不是第一家试出来的（比如Google 的 gemini flash 2.0 thinking
时政
( twitter.com)

15天前 • 九原客 • -- 点击 0 评论

2

4

3

3

转：关于 DeepSeek 的研究和思考 (Archerman Capital)
关于这几天很火的 DeepSeek, 我们 (Archerman Capital) 做了一些研究和思考, 和大家分享, enjoy! 灰色部分是技术细节, 不感兴趣的可略过。
几个事实
1) DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的, 但
IT技术
( twitter.com)

15天前 • 宝玉 • -- 点击 0 评论

3

2

1

1

deepseek在英文圈已经被吹上天了，发现中文圈还有很多非AI业内人士，对deepseek的能力没有一个清晰的认识，所以用中文发一条，先说结论，我认为行业贡献而言：GPT>deepseek>gemini>llama及其他
时政
( twitter.com)

16天前 • JundeWu • -- 点击 0 评论

4

2

1

1

这两天李一舟好像在AI圈出圈了，推上爆火。我十一年前在北京中央美院MIA…
IT技术
( twitter.com)

11个月前 • Bear Liu • -- 点击 0 评论

5

3

2

2

【从DeepSeek到AI行业的四个思考】
一、论文推荐：大模型领域的「教科书式」样本
今天重读DeepSeek系列论文，印象深刻的其实是24年2月的 DeepSeek-Math
时政
( twitter.com)

13天前 • Panda • -- 点击 0 评论

6

2

1

1

很多人担心DeepSeek的低成本训练会冲击显卡市场，但我认为其实是利好
首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。
其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡，理论上效果只会更好。他本质上是一种improvement of scaling
时政
( twitter.com)

15天前 • JundeWu • -- 点击 0 评论

7

3

2

2

自从DeepSeek事件爆发后，网络上出现无数分析、解析、剖析DeepSeek的自媒体视频
其实自媒体里的信息根本没用，你也不能靠他赚钱
但自媒体们自己，倒是可以通过流量赚取一笔广告费
所以其实说到底
我们都上当了
除非你真的在利用DeepSeek分析炒股，并且赚到了钱
否则说实话，有一个是一个
时政
( twitter.com)

10天前 • 勃勃OC • -- 点击 0 评论

8

2

1

1

这么看来Deepseek确实挺智能的😄
时政
( twitter.com)

11天前 • 每日反共🇺🇦 • -- 点击 0 评论

9

2

1

1

这个事情其实不难解释，我在2天前的DeepSeek论文分析报告中也已经总结，很多疑惑看过paper就有答案。
V3的低成本算力提升主要有三个因素
1）fp8 的低精度浮点数训练，之前有人尝试过fp8的低精度训练，但都失败了。deepseek靠着顶尖数学竞赛生，硬是把它调了出来
2) MoE,
时政
( twitter.com)

13天前 • 勃勃OC • -- 点击 0 评论

0.05839 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特