总结一下DeepSeek讨论的初步结果,DeepSeek的贡献主要有两个:
一是基础模型的预训练,二是利用无监督的增强学习(RL)提高推理能力
1)在预训练方面,DeepSeek团队的贡献主要是工程性的:比如超强的训练稳定度、深入使用fb8混合精度、多词同时预测、隐空间多注意力头,MOE混合专家等等。这大大降低了训练成本,用600万美金训练一个600B的大模型,可谓是工程上的奇迹。
2)在推理方面,DeepSeek团队的贡献则是突破性的,科学性的,但也是阶段性的——他依然没有实现AGI,水平也只是和GPT o1 比肩。它证明了无需使用费时耗力的思维链标注,用无监督数据也可让模型自然涌现出推理能力。这大大降低了模型推理的门槛,也是首个开源的、能力接近GPT o1的推理模型。
当然,之所以DeepSeek R1 最终无法超越GPT o1,可能是他有意无意使用了后者输出作为训练数据有关。
我们认为,DeepSeek的成果对美国AI产业主要会有两大影响:
1)对OpenAI等闭源模型产生冲击。这意味着,任何一个公司都可以使用类似方法,让基础模型获得推理能力。而推理成本仅为OpenAI的1/10。我们会看到更多专用推理模型诞生,而创业公司、个人App等可能会大幅减少在OpenAI API上的支出,转向开源。
2)在硬件方面,市场可能会首先质疑先进算力的必要性,影响到NVDA的股价;但随后依然认识到它的优势:毕竟GB200会显著加快DeepSeek V3的训练速度,且在R1模型的推理阶段也拥有成本优势。不论是什么样的模型,哪怕是小模型,FLOPS永远是王道,规模永远是王道。英伟达只需让GB200推理的Token综合成本远低于H100即可。
这恰恰是“通用”AI芯片的价值。相比之下,为特定大模型设计的ASIC反而会再次遭到挑战。