site stats
这个事情其实不难解释,我在2天前的DeepSeek论文分析报告中也已经总结,很多疑惑看过paper就有答案。V3的低成本算力提升主要有三个因素1)fp8 的低精度浮点数训练,之前有人尝试过fp8的低精度训练,但都失败了。deepseek靠着顶尖数学竞赛生,硬是把它调了出来2) MoE,
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多