澄清一些DeepSeek里关于降本增效的概念：首先，增加训练效率的是MOE，Mixture of Experts，也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中，仅选择1/k的参数激活进入下一个Block。

发布时间: 2025-01-26 19:20:03

1分

数据加载中

关注推特

收听电报

2

1

0

澄清一些DeepSeek里关于降本增效的概念：
首先，增加训练效率的是MOE，Mixture of Experts，也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中，仅选择1/k的参数激活进入下一个Block。
时政
( twitter.com )

9天前由勃勃OC 提交

澄清一些DeepSeek里关于降本增效的概念：

首先，增加训练效率的是MOE，Mixture of Experts，也就是所谓混合专家模型。他指的是模型每一个Transformer Block在最后那一层网络中，仅选择1/k的参数激活进入下一个Block。

这导致对于每一个token来说，一个600B的模型仅需激活了接近37B的权重，相当于每一个token的训练可以节省约80%算力，大大提高了训练速度。

其次，增加推理速度的是MLA，Multihead Latent Attention，多头隐空间注意力机制。名字很玄乎，本质就是通过一些矩阵把注意力机制中最关键的KQV三个矩阵投影到更低维的空间（隐空间）中，以便存在缓存中。这样每次推理的时候就不需要重新计算

大大增加了推理速度

这两个技术都不能说是颠覆性的。但DeepSeek都做了自己的改进，而且调通了

这就是他最厉害的地方

这两个重要概念，在DeepSeek V3 paper的第一页就有

当然更关键的是fp8，也就是8位浮点量化运算。之前推文介绍过了。是fp8从训练所需空间上限决定了，这个模型可以用2048个H800训练。

每个fp8相比fp16能节约50%空间，相比fp32 节约75%。矩阵乘法的运算速度甚至是按平方提升。

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

3

2

2

关于日本人学校几个事实必须澄清
时政

苏州日本人学校校车袭击
( twitter.com)

7个月前 • 新闻调查 • -- 点击 0 评论

2

2

1

1

亚洲文明圈的降本增效：
时政
( twitter.com)

11天前 • 勃勃OC • -- 点击 0 评论

3

2

1

1

老中在降本增效这块儿确实有一手的
时政
( twitter.com)

8天前 • 利维坦冲浪里 • -- 点击 0 评论

4

3

2

2

转：关于 DeepSeek 的研究和思考 (Archerman Capital)
关于这几天很火的 DeepSeek, 我们 (Archerman Capital) 做了一些研究和思考, 和大家分享, enjoy! 灰色部分是技术细节, 不感兴趣的可略过。
几个事实
1) DeepSeek 不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的, 但
IT技术
( twitter.com)

8天前 • 宝玉 • -- 点击 0 评论

5

3

2

2

【当互联网大厂开始“降本增笑”】在那些最惨烈、最荒唐、最极致的降本故事里，我们都能看到自己的身影。
大陆资讯
( mp.weixin.qq.com)

11个月前 • 射屌英雄传 • -- 点击 0 评论

6

2

1

1

澳大利亚总理澄清：AUKUS内部有分歧，没有计划新增日本为第四个成员
大陆资讯
( news.sina.com.cn)

10个月前 • 读书顶个鸟用 • -- 点击 0 评论

7

2

1

1

有用户反映，询问DeepSeek属于哪个openai模型。开启深度思考R1模式后，DeepSeek回答自己是基于GPT-3.5的增强版模型即GPT3.5turbo
时政
( twitter.com)

5天前 • 李老师不是你老师 • -- 点击 0 评论

8

2

1

1

用17K从DeepSeek R1 蒸馏的SFT数据，微调Qwen2.5-32B，效果非常不错。
与DeepSeek R1自家蒸馏的版本相比略逊一些，但是后者是800k sample，而且这17k数据以及合成脚本完全开源。
方法来自之前蒸馏QwQ的Sky-T1。
P.S. 7B的模型效果提升不佳，看来越小的模型需要越多的数据激活能力。
1/2
时政
( twitter.com)

12天前 • 九原客 • -- 点击 0 评论

9

2

1

1

很多人担心DeepSeek的低成本训练会冲击显卡市场，但我认为其实是利好
首先一个误区是其他厂商模仿DeepSeek就不需要那么多卡了。
其实DeepSeek-R1的低成本训练方法是可以scaling的。也就是说用更多卡，理论上效果只会更好。他本质上是一种improvement of scaling
时政
( twitter.com)

8天前 • JundeWu • -- 点击 0 评论

0.0959 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特