刚才Space讨论到美国什么时候“能迎头赶上”的问题,我做两个个人判断吧
1)DeepSeek V3这个模型应该没有公司有兴趣去复现,因为他是在算力限制下的结果,fp8量化一定会损失精度;而DeepSeek V3 本身其实和其他同规模的大语言模型差不多。
如果没有算力限制,也不缺钱,大厂没必要重走一遍自己走过的路:比如Llama
2)但是R1这个基于RL的训练思路会有人复现。只需要找任何一个Base Model,加上一些无监督的数学/代码数据,就可以借助GRPO实现推理能力的提升。
我相信在1-2周内,Meta、Google、Amazon甚至Nvidia等公司内部就会有结果。
如果2周之内,美国公司都拿不出一个像样的和R1同级别的结果,那说明美国完了
我即日起直接回国
谢谢大家。