看了下DeepSeek论文,做了点笔记和思考
DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,也没有类似的担忧(如图)
AI算力通缩是必然现象,长线旋律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级
------------------------------
先从DeepSeek R1论文本身说起
Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力,属于post-training后训练范畴,看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优,推理时耗费比o4高几个数量级),只不过在benchmark/推理水平上达到了相同的水平
所以从推理token价格来说,deepseek和o1比降低了27倍也是合理的。
DeepSeek-R1 是在 “DeepSeek-V3-Base” 这个预训练好的模型上进行 RL强化学习,reward机制是基于规则的奖励(rule-based reward system),而不是普遍使用的过程奖励process neural reward model或者靠纯结果outcome
规则奖励分两个部分:
• 准确性奖励(Accuracy Reward): 对于有确定答案的问题,评估模型生成的答案是否正确。
• 格式奖励(Format Reward): 确保模型在回答中遵循指定格式,比如说
推理过程
最终答案
可能是因为对推理过程有规则奖励,也“涌现”出了生成推理过程的“顿悟时刻(Aha Moment),模型自己生成的CoT过程越来越长,还学会了反思(reflection),和自我纠错和exploration探索举动,这都是提高推理能力的普遍过程
DeepSeek-R1主要贡献是证明 LLM 可以在无监督数据的情况下,通过强化学习RL提高推理能力
通过这个“规则奖励”以及GRPO,不需要大量人工编写/标注复杂的 CoT 数据来提高推理能力,直接把模型推理能力提高到o1水平,同时成本还很低
-----------------------
为什么这个RL提升推理能力的方法以前没人试过呢?
其实两年前就试过了(伯克利),但当时只有LLAMA第一代模型能力不足,GSM8K跑分都非常低,推理和数学能力太低。那个时候LLAMA2-HF效果好得多,因为在预训练语料里已经有一些CoT的文本,所以后来的RL可以直接利用并强化这些“人类式思考”的片段,而早期模型往往生成的推理过程非常混乱。
另外早期基准(GSM8K等)太简单,模型可能能“轻松”地蒙中答案、或者通过一些相对简单的做法就拿到高分。
当任务足够难,模型只有先探索/反思/纠错,才能更稳定地拿到正确解答,RL才会往这个方向去“逼”模型学会更复杂的思维过程
-----------------------
还有一个scalable的问题很重要,DeepSeek-R1的低成本训练方法如果继续加大模型规模、增加算力,用相同或类似的 RL 训练流程,能不能进一步提升性能?
理论上看起来是可以的,R1论文里也说需要更大规模的RL和更大的base model来推进frontier(如图)。从这一段来看,说DeepSeek-R1是从o1蒸馏而来也是不对的
如果DeepSeek-R1的低成本训练方法能够scalable,那么说明这是广义上scaling law的另一个进步 -- 一个新的S型曲线来维持scaling law的延续(on track)
---------------------------------
再来说说DeepSeek对算力的影响
这一轮算力军备竞赛的起点和动机是,scaling law带来的性能提升没有看到天花板(confirmed by Mark),所以大家才会疯狂的投入,这是和以前都不一样的地方
所以关键问题不在于deepseek用十分之一的算力取得了相同的结果,而是Deepseek的方法能不能scalable,给scaling law续命,这才是决定性因素
只要scaling law还能继续,在AI上的capex就只会继续增加
就像摩尔定律一样,只要摩尔定律继续延续,芯片的市场会增大,在芯片制程上的研发成本就会持续增加
Deepseek降低成本训练方法可以scaling,可以看作是一个新的S型曲线,让AI界的摩尔定律延续:随着规模的增大,模型性还能变得更好
类比到芯片里,如果芯片里突然有一项开源技术,让所有芯片的单位面积上容纳的gate数量原地翻倍,会有人担心台积电订单减半吗?
不会
如果发生这种情况,最开心的就是所有的fabless芯片设计厂商,Intel/AMD/qualcomm马上就能设计出新一代性能翻倍的芯片,那消费电子的换机潮岂不是要疯狂
消费电子的OEM也会开心,手机和电脑换代得卖疯了。
还是那句话,AI算力属性本来就是指数型通缩的,长线来看就是十年加速六个数量级,软件/算法加速三个数量级,硬件加速三个数量级
软件/算法的加速意思是用更少的资源去实现相同的效果(正如DeepSeek R1),硬件的加速包括半导体工艺提升,架构提升,以及带宽/互联和规模提升带来芯片的算力加速(算力提升)
现在训练一个GPT4级别的成本,和两年前比起来,恐怕还不到十分之一
会有各种新的方法去延续这个AI算力指数级加速,正如引文里说的那样,每一种方法都是一个新的S曲线,很多个技术曲线的scaling law前赴后继的组成了一道一道S型技术曲线,累积叠加维持指数级增长的幻象
性能提高的同时成本的指数型降低,带来的是AI应用门槛的指数级降低,一定会让整个生态更加繁荣,诞生出更多需求
我们只需要看,最近有没有新方法维持十年加速六个数量级的进展?如果没有,那才是需要担心AI停滞的时候
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图