今天跟 LLM 前沿的研究员聊了一下午,收获了很多有趣的 insights,先分享一个,后续慢慢整理
在 OpenAI 之前,大家只知道 transformer 是很好的架构,但 OpenAI 用现实证明了放大 transformer 中 QKV 矩阵、增加更多的层、更多的维度和 attention heads,就能提取和学习到数据中高质量的 feature,从而产生高质量的模型
但这其中没有 magic,OpenAI 更没有断层领先其他公司的聪明大脑。当这个思路出来后,其他公司可以非常快的尝试这个路线。注意,增大模型并不是没有人想过,也不是有极高的技术含量,只是没人敢尝试。你不能跟老板说,你给我几千万美元,我试试这条路走不走得通。但 OpenAI 试出来了,并且用事实证明走得通、效果好,其他家就可以沿着这条路迅速跟进
OpenAI 之前领先其他公司大概 2 年,因为在 LLM 这条路整个链路,包括 训练、模型架构、推理 整个实现路线上,有无数的坑,OpenAI 一步步趟出来。而其他公司需要从头一步步踩坑,但因为有资本的关注,其他公司可以迅速雇到足够的人 足够的资源去趟,并且有了先行人,投入会更加高,差距也会极速收缩
如果大家都限制模型在 7b 的大小,模型的架构和细节非常重要。但因为有 scaling law,细节变得没那么重要,如果把模型比喻成人的话, “努力更重要,还没到拼天赋的时候”。暴力提升大小就能取得更好的效果
换句话说,因为深度学习的黑盒特殊性,科研处于先射击后瞄准的风格。即先实验验证某种模型架构具有领先的效果,然后尝试去解读为什么有这么好的效果。
transformer 效果很棒,但是为什么棒?你可以有很多理论去解释 QKV 三个矩阵的意义和效果,但你不能根据从多种优秀的模型架构中总结出的设计原则,去迭代出一种更优秀的架构,所以从更高维度看,大家就是在尝试各种不同的可能效果更好的架构。
因为架构迭代的不可控性,而提升参数量对效果提升的可预期性,未来主流公司还是会走在想尽办法提升参数量的这条路上。
在现在这个时间点,llama 3.1 已经达到了 gpt4o 的水平,大家基本来到跟 openAI 同一水平线上。未来可能就是
- 继续卷模型参数量,等待 scaling law 达到瓶颈,进入价格战,开始优胜劣汰,剩下几个头部选手
- 在卷的过程中出现了比 transformer 更优秀的架构。可能是终结 scaling law 的新架构,那 AI 的竞争走向另一条路。这就不是你我能预测的了
当然这只是对基础模型的分析和想法,应用层更加有趣和难以预测。
或者,更让我们期待的是人类在应用层的创新