这个事情其实不难解释，我在2天前的DeepSeek论文分析报告中也已经总结，很多疑惑看过paper就有答案。V3的低成本算力提升主要有三个因素1）fp8 的低精度浮点数训练，之前有人尝试过fp8的低精度训练，但都失败了。deepseek靠着顶尖数学竞赛生，硬是把它调了出来2) MoE,

发布时间: 2025-01-29 02:10:07

1分

数据加载中

关注推特

收听电报

2

1

0

这个事情其实不难解释，我在2天前的DeepSeek论文分析报告中也已经总结，很多疑惑看过paper就有答案。
V3的低成本算力提升主要有三个因素
1）fp8 的低精度浮点数训练，之前有人尝试过fp8的低精度训练，但都失败了。deepseek靠着顶尖数学竞赛生，硬是把它调了出来
2) MoE,
时政
( twitter.com )

昨天由勃勃OC 提交

这个事情其实不难解释，我在2天前的DeepSeek论文分析报告中也已经总结，很多疑惑看过paper就有答案。

V3的低成本算力提升主要有三个因素

1）fp8 的低精度浮点数训练，之前有人尝试过fp8的低精度训练，但都失败了。deepseek靠着顶尖数学竞赛生，硬是把它调了出来

2) MoE, 混合专家。你可以理解为一种对每一个单词，只用极少数权重训练的技术。估算每一单词减负达85%。

3）MLA，多头隐空间注意力。这是一种加速推理的技巧，将推理所需KQV矩阵降维并缓存

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

如果你在 X 或者其他什么地方看到这样的分享代码，而不是很理解代码的意思，可以让 LLM 给你解释代码，还可以帮你在代码中加上详细注释方便阅读，也可以就某个不理解的部分追问得到详细的解释。
这在以前，新手要搞懂这些代码，或者有疑惑要提问，其实很难找到合适的人去问，也无法做到这么耐心细致
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 0 评论

2

2

1

1

警方说的是不是事实，我无从考证。那个小伙子挖坑的视频我也看了，你让我解释其中的疑点，我也无能为力。…
时政
( twitter.com)

10个月前 • 老多 • -- 点击 • 下载视频 0 评论

00:00:23

3

2

1

1

1，李方先生如果提醒我，可以直接和我联系。而这个信息，是你指控王靖渝，并解释你以前对我的攻击和造谣；
2，这个截图很早以前我确实向李方先生核实过，因为我担心是骗子冒名发送这个信息。他当时说不知道是怎么回事，后来又说经过核实后，确认是你发给我的；…
时政
( twitter.com)

11个月前 • Suyutong • -- 点击 0 评论

4

2

1

1

上海万圣节这个事，我用安多的这一段来解释
时政
( twitter.com)

3个月前 • Mocking Jay🌹 • -- 点击 0 评论

5

2

1

1

人的一生常常是：“怕什么，来什么。”用心理学上的理论解释，这就是“墨菲定律”。
事实上，与其说现实总是与人过不去。不如说是人的自我信念、认知以及情绪影响了整个事情的过程与发展。
辜负你的人，因你的轻信而来；
伤害你的人，因你的软弱而来。
时政
( twitter.com)

2个月前 • Dr.Wang • -- 点击 0 评论

6

3

2

2

三个月前是苏州，昨天在深圳，中国国内接连发生对日本在华侨民，尤其是对日本儿童伤害、刺杀的恶性案件，不能再解释为偶发事件了，这根本就是几十年来仇日教育的恶果。
时政
( twitter.com)

4个月前 • 浦志强 • -- 点击 0 评论

7

2

1

1

这本书观点真犀利，能解释很多事情。
IT技术
( twitter.com)

18天前 • 向阳乔木 • -- 点击 0 评论

8

2

1

1

#战事简报
乌克兰武装部队总司令瑟斯基表示：
乌克兰要征兵，但远远低于50万人。
▪️被动员的人不会立即奔赴前线：截至2024年2月，约占总人数的84%在军事中心接受了培训；
▪️俄罗斯联邦在弹药释放方面的优势约为6:1。就在几天前；
▪️前线的情况确实很困难，但我们夺回的阵地比失去的阵地多。
时政
( twitter.com)

10个月前 • 华夏人1号🟨🇺🇦 • -- 点击 0 评论

9

2

1

1

「知识分子」对话“睡在(上海公卫中心旗下研究所)实验室门口的病毒学家”张永振
张永振：很难以正常人思维理解这件事。去年，我不在场情况下，把我办公室东西扔出来；前天晚上下雨，我想往门边上靠靠（避雨），两个保安坐在门口，不让我往门上靠。我不知道他们为什么要这么对我。
时政
( mp.weixin.qq.com)

9个月前 • 大声 • -- 点击 0 评论

0.19649 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: admin@bad.news

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特