刚才花2小时看完了DeepSeek V3 的 Technical Report，下面说下我的感想。首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer：

发布时间: 2025-01-26 15:10:17

1分

数据加载中

刚才花2小时看完了DeepSeek V3 的 Technical Report，下面说下我的感想。
首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer：
时政
( twitter.com )

刚才花2小时看完了DeepSeek V3 的 Technical Report，下面说下我的感想。

首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer：

1）他们世界首创在大规模LLM训练中系统性部署fp8（8位浮点）量化技术，这大大降低训练对显卡内存的需求，也加快了训练过程；

2）为了正确使用fp8的矩阵乘法，他们优化并改进了CUDA Kernal的调用方式，甚至给NVDA提出了诸多Tensor Core方面的设计建议

3）他们开发了自己的训练框架DualPipe，实现了16/64通道的流水线和专家（MOE）并行，极大改善了并行训练中的通信和计算冲突问题，解决了调度瓶颈。

最终，DeepSeek实现了在2048个H800上的集群训练。

其次，文章中大部分改进是渐进式的，而非革命性的：

1）对MTP（多词预测）实际上来自2023年文章YaRN，而且最终DeepSeek V3只实现了N=1的MTP，也即比传统的GPT多预测一个词；

2）MOE所引入的Aux-Loss-Free Load Balancing技术，其实仅仅是在传统Expert的分配算法面前加入了一个bias term b_{i}；

3）DeepSeek MOE上的另一个革新是加入了“共享Expert”，并保证训练时对于每个Token，这些Expert最多分布在4个node上，以减少通信瓶颈。

4）其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent Space存入Cache，提高存储速度；这有利于推理任务加速。

5）利用自己在量化交易中的经验，创造性地将某些移动平均值（如Adam参数状态）存在CPU中，减少并行开销，等等

当然，能够将如此多新的细节整合在一起，并获得一个几乎没有任何Loss Spike的平滑的训练框架，这不得不说是一个奇迹。

最后，DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验。Deep Seek证明了：

1）推理能力可以通过RL获得，

2）推理能力可有效的被蒸馏到更小的模型上去。

虽然他们也同时观察到，蒸馏可能让小模型的输出变得更长，语言效率降低。此外，如果RL的Reward Model过于简单，这可能会让模型推理仅限于数学和代码任务

总的来说，确实是一个非常好的Paper，证明了在极限的精度和优化条件下，训练一个600B大模型成本能走到多低。

但不至于颠覆硅谷，是一个非常好的阶段性进展

恭喜全世界的AI研究者们！

Markdown支持

评论加载中...

您可能感兴趣的：更多

刚才Space讨论到美国什么时候“能迎头赶上”的问题，我做两个个人判断吧
1）DeepSeek V3这个模型应该没有公司有兴趣去复现，因为他是在算力限制下的结果，fp8量化一定会损失精度；而DeepSeek V3 本身其实和其他同规模的大语言模型差不多。
时政
( twitter.com)

8天前 • 勃勃OC • -- 点击 0 评论

Cursor 已经可以将 Deepseek v3 和 R1 加入了官方模型列表。
可以在设置-模型部分选择，R1 是完全体模型。
IT技术
( twitter.com)

4天前 • 歸藏(guizang.ai) • -- 点击 0 评论

Deepseek has tripled in usage on OpenRouter since the v3 launch yesterday.
Try it yourself, w/o subscription, including web search:
时政
( twitter.com)

1个月前 • OpenRouter • -- 点击 • 下载视频 0 评论

00:00:31

DeepSeek V3 实测：与 Claude 3.5 Sonnet、o1 Pro 代码能力对比
本期视频将深入解析DeepSeek最新发布的V3版本，包括其671亿参数、14.8T token 预训练等核心规格。
通过多轮测试，分别与Claude 3.5 Sonnet和o1 Pro在Python、JavaScript、Swift、Java等编程语言上进行了对比。
时间戳
0:00 -
时政
( twitter.com)

1个月前 • nicekate • -- 点击 • 下载视频 0 评论

00:12:13

沉浸式翻译换 Deepseek V3 真爽，又快又好，还便宜
看了一下，我这两三天库库用，18 万 Token 只花了一毛三
可能还有很多人不知道咋换，文字更换方法写下面了👇
IT技术
( twitter.com)

21天前 • 歸藏(guizang.ai) • -- 点击 • 下载视频 0 评论

00:00:28

DeepSeek V3 预览版低调发布，但是非常牛逼。
一句话重点：编程能力超过 Claude Sonnet 3.5。
这还只是预览版。
测试的基准是 Aider 的多语言基准，一个用于衡量模型编程能力的基准，具体介绍放在图2，官网放到回复里了。
几个模型的得分
- 62% o1
- 48% DeepSeek V3 预览
- 45% Claude
- 38%
IT技术
( twitter.com)

1个月前 • orange.ai • -- 点击 0 评论

这个事情其实不难解释，我在2天前的DeepSeek论文分析报告中也已经总结，很多疑惑看过paper就有答案。
V3的低成本算力提升主要有三个因素
1）fp8 的低精度浮点数训练，之前有人尝试过fp8的低精度训练，但都失败了。deepseek靠着顶尖数学竞赛生，硬是把它调了出来
2) MoE,
时政
( twitter.com)

6天前 • 勃勃OC • -- 点击 0 评论

这个太逗了，大家要看。播主用Claude Sonnect 3.5和DeepSeek V3对比做一个网站（判断是否放弃博士改做其他职业的评估网站），结果是DeepSeek胜利，而且非常有趣，直接计算博士和OnlyFans的利弊取舍。
时政
( twitter.com)

1个月前 • Michael Anti • -- 点击 • 下载视频 0 评论

00:03:14

这就是为什么 DeepSeek R1-Zero 其实在传统任务（如语言、助人性、无害性等）上表现不佳。
最终，他们需要使用一个基于 V3（甚至是 ChatGPT）生成的监督数据集结合多阶段强化学习（RL）来抵消这种效果。
因此，将 DeepSeek R1 称为完全无监督并不公平。
That's why DeepSeek R1-zero doesn't
时政
( twitter.com)

9天前 • 勃勃OC • -- 点击 0 评论

刚才花2小时看完了DeepSeek V3 的 Technical Report，下面说下我的感想。 首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer： 时政 ( twitter.com )

时政

时政

Cursor 已经可以将 Deepseek v3 和 R1 加入了官方模型列表。 可以在设置-模型部分选择，R1 是完全体模型。 IT技术 ( twitter.com)

IT技术

Deepseek has tripled in usage on OpenRouter since the v3 launch yesterday. Try it yourself, w/o subscription, including web search: 时政 ( twitter.com)

时政

时政

沉浸式翻译换 Deepseek V3 真爽，又快又好，还便宜 看了一下，我这两三天库库用，18 万 Token 只花了一毛三 可能还有很多人不知道咋换，文字更换方法写下面了👇 IT技术 ( twitter.com)

IT技术

IT技术

时政

这个太逗了，大家要看。播主用Claude Sonnect 3.5和DeepSeek V3对比做一个网站（判断是否放弃博士改做其他职业的评估网站），结果是DeepSeek胜利，而且非常有趣，直接计算博士和OnlyFans的利弊取舍。 时政 ( twitter.com)

时政

时政

创建一个新帐户

登录

刚才花2小时看完了DeepSeek V3 的 Technical Report，下面说下我的感想。
首先，文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer：
时政
( twitter.com )

Cursor 已经可以将 Deepseek v3 和 R1 加入了官方模型列表。
可以在设置-模型部分选择，R1 是完全体模型。
IT技术
( twitter.com)

Deepseek has tripled in usage on OpenRouter since the v3 launch yesterday.
Try it yourself, w/o subscription, including web search:
时政
( twitter.com)

沉浸式翻译换 Deepseek V3 真爽，又快又好，还便宜
看了一下，我这两三天库库用，18 万 Token 只花了一毛三
可能还有很多人不知道咋换，文字更换方法写下面了👇
IT技术
( twitter.com)

这个太逗了，大家要看。播主用Claude Sonnect 3.5和DeepSeek V3对比做一个网站（判断是否放弃博士改做其他职业的评估网站），结果是DeepSeek胜利，而且非常有趣，直接计算博士和OnlyFans的利弊取舍。
时政
( twitter.com)