“多标记 预测系统
打破传统逐字逐句生成的低效模式,多标记预测系统允许模型一次性处理整句或多句内容,推理速度提升 2倍,准确率高达 90%,大幅提高训练与推理效率。”
这是错的,你说的所谓多词预测,全称叫MTP,但是DeepSeek其实只多预测了一个词,这无法提高推理速度,但可以提高语料的利用率
真正增加推理速度的是MLA,Multihead Latent Attention
如果你要做视频宣传deepseek的话,建议参考下这篇文章,助于解释很多基本内容
大部分大V都不是内行,出了很多错。
你在Tesla投资者圈子里有影响力,希望你不要犯和其他大V一样的简单错误~
https://t.co/Nbc2JMGRmj
点击图片查看原图