【从DeepSeek到AI行业的四个思考】
一、论文推荐:大模型领域的「教科书式」样本
今天重读DeepSeek系列论文,印象深刻的其实是24年2月的 DeepSeek-Math https://t.co/aoPuwqbMyU,如果说关于大模型领域你没有太多时间看论文,那单看这篇就够了,蕴含了他们对数据工程、RL的一切思考和实践,而其他论文都像是按部就班的后来之作,solid的工作是今天流量爆炸的基础
二、GPU ownership ≠ GPU utilization,真正的算力霸权,藏在代码而非机房
两天前我说“算力短缺是个笑话”其实略显不严谨,更准确的结论是: GPU ownership ≠ GPU utilization
见过几个团队豪掷百万美元训练模型,实际通过数据/算法优化就能将成本压到1-5%
讽刺的是,即便投入如此巨资,效果依然不尽如人意,他们只能搬出“scaling law还未生效”之类的说法向上级/甲方/投资人解释。
结合今天DeepSeek的故事,训练优质模型需要千卡不假,但真正的竞争力在于——
- 用10张卡做出别人100张卡的效果(技术密度)
- 用100张卡产出别人1000张卡的成果(工程效率)
一个组织的模型创新实力,不在于GPU名义拥有量(GPU ownership),而在于GPU有效产出量(GPU utilization),产出低的组织会一味吹嘘大显卡的故事
真正的算力霸权,藏在代码而非机房
三、一切问题都是经济问题
在技术以外我们能看到一个问题:创新是富人的游戏
经济自由之后才可以按自己的想法做事情,靠讲故事拿到过高的估值其实也是一种负担,融资得来的钱并不是自己的钱
DeepSeek团队能专注底层技术,是因为背后站着幻方量化——
显卡是之前为量化业务囤的,DeepSeek的人员成本可能还不如幻方每年做慈善捐的钱多
也几乎没有严肃考虑过商业化的事情,不做营销、不刷榜、把底层技术做solid做到极致,其他的自然就来了。
怎么做科技企业,穷人得在金钱上做决定,创新只生在大富之家
反观大多数团队:
→ 用投资人的钱做“共识内创新”(否则无法交代)
→ 用客户的钱做“可解释性研发”(否则无法续费)
我们曾用廉价的AutoDL平台以几十万RMB的极低成本训练30B合成数据的模型,这个路子我一直认为是对的,但最终搁置——
哪怕我们这样合成出的数据比简单蒸馏OpenAI、Claude好得多,但客户和投资人都会觉得这是简单的左脚踩右脚,不是技术不对,而是:当你的生死取决于外部资金时,创新永远要为生存让路。
▸ R1-Zero像赤手空拳的野路子天才(纯RL硬刚结果奖励) ▸ R1像受过系统训练的学院派(冷启动数据+RL调优)
技术路线的选择自由,本质上是一种财务自由。
四、借假修真不如直取真经
前辈提起过一个借假修真的话题:“如果你想做A,但你觉得A需要的资源很多,所以你跟外界说你要先做B,那你不如一开始就直接去做A”
若终极目标是A,却因资源不足改做B,本质是自我阉割
而真实世界的悖论:越是资源有限,越需要All in真实需求
今年试水个人账号,虽然没太大的成绩,但推特也有8k粉了,也算小有感悟: 当你的个人账号=公司品牌时——
▸ 所有观点不再需要包装,粉丝天然就是你公司产品的种子用户
▸ 账号像一面镜子:经营账号的过程中不断剖析自己的性格底色到底如何,拒绝掉一切和自己调性不符的事情
可能做账号的过程就是做真实的自己