site stats
刚才Space讨论到美国什么时候“能迎头赶上”的问题,我做两个个人判断吧1)DeepSeek V3这个模型应该没有公司有兴趣去复现,因为他是在算力限制下的结果,fp8量化一定会损失精度;而DeepSeek V3 本身其实和其他同规模的大语言模型差不多。
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多