有趣的推文:《为什么说“听话”的 AI 反而无法带来科学突破?》
---
前几天我在一个活动上分享了一个有点争议的观点,后来我想了想,还是决定把它详细地写下来:
我担心AI(人工智能)并不会带给我们一个所谓的「浓缩版21世纪」。
这个概念来自Dario的一篇著名文章《充满爱意的机器》(Machine of Loving Grace),如果你还没读过,我强烈推荐一下。这篇文章的核心观点是:未来一两年里,我们可能在数据中心建出一个「由爱因斯坦组成的国家」——而且有了这个国家,人类原本需要一个世纪才能取得的所有科学突破,只需5到10年就能实现。
我第一次读到这个观点时,整个人震撼了——心想AI会在5年内彻底改变科学世界!但过了几天我再去读第二遍,却觉得有些问题越看越不对劲,好像充满了理想化的美好想象。
依我看来,按照目前AI发展的趋势,我们更可能造出来的是一个「服务器里的乖乖生国家」(country of yes-men on servers)。
为什么这么说?让我先用自己的经历来解释一下:
我一直是个成绩特别好的学生。从一个法国小乡村长大,后来进入了法国顶尖的工程学院,之后又顺利地被MIT录取读博士。读书考试对我来说一直很简单,因为我总能提前知道老师想教什么、考试可能会考什么。
然而,当我真正进入学术研究领域,成为一名博士研究生时,却惊讶地发现自己在做研究方面平平无奇,甚至有点糟糕。当身边很多同学都能想出很有创意的主意时,我却总是在撞墙。如果书上没写清楚,我就很难想出新的东西;就算想出来了,也只是前人理论的一点无聊变化。更让我沮丧的是,我发现自己特别难挑战固有的知识、质疑那些已经学到的东西。我发现自己根本不是什么爱因斯坦,只不过特别会考试而已。甚至更进一步说:也许我之所以成不了爱因斯坦,就是因为我太擅长考试了。
历史上,那些真正的天才在求学阶段常常表现得很挣扎。比如爱迪生被老师骂做「迟钝的学生」,诺奖得主芭芭拉·麦克林托克曾被批评「思路奇怪」,而爱因斯坦第一次考苏黎世联邦理工学院(ETH)时甚至直接考砸了。
人们犯的最大错误,就是以为牛顿、爱因斯坦这种科学巨人,只不过是普通优等生的强化升级版——只要把前10%的优秀学生再提升一些就能成为天才了。
这种观点忽略了科学进步的真正关键:
科学不是看谁掌握的知识最多,而是看谁能提出最关键的问题,谁能质疑所有人都认为理所当然的事物。真正的科学突破,就像哥白尼提出「地球绕着太阳转」,他当时完全违背了全世界人们的认知——用机器学习的话来说,就是哥白尼在自己的「训练数据集」完全相反的情况下,仍敢于挑战常识。
想要在数据中心创造出一个爱因斯坦,我们需要的不是一个「知道所有问题答案」的AI,而是需要它能提出没人敢想甚至没人敢问的问题。当所有的教科书、专家、常识都指向一个方向时,它却敢问:「如果大家都错了呢?」
你可以想想,爱因斯坦提出狭义相对论的时候,说「我们不妨假设光速在任何参照系里都是不变的」,这在当时甚至今天看来,都是极其疯狂、违背直觉的主张。
再举个现代的例子,比如CRISPR(基因编辑技术),早在1980年代人们就知道它是一种细菌的免疫系统。但直到25年后,科学家詹妮弗·杜德纳和埃马纽埃尔·夏彭蒂耶才大胆提出:
「我们几十年来都觉得CRISPR只在细菌中起免疫作用,但如果我们错了呢?如果它还能用来编辑基因呢?」
正是这种彻底颠覆固有认知的「范式转移」,才推动了科学的重大进步。
虽然这种「范式转移」极少见(可能每年全球只有一两次),但每次发生都会带来巨大的科学飞跃。这些罕见的突破,就足以定义整整一个世纪的科技进步,其它大多数研究可能只是背景噪音。
但你看看我们目前是如何评估AI智能进步的。最新的一些AI测试,比如所谓「人类最后的考试」或「前沿数学题库」,这些考试通常由博士们精心设计,问题特别难,但都有固定、清晰的正确答案。
说实话,这种考试就是我最擅长的。这些测试能检验AI能否解出已知的题目,但真正的科学突破恰恰相反,它来自于质疑旧知识、提出没人想过的新问题。
就像科幻小说《银河系漫游指南》里写的那样:答案也许是42,但没人知道问题到底是什么。研究的精髓其实就是这样。
所以我认为,目前的大语言模型(LLMs),虽然它们已经掌握了人类所有现有知识,却始终没能创造任何真正全新的知识——它们只是填补知识空白(“流形填充”),而不是真正跨越领域连接不相关的概念,提出惊人的新问题。
我们现在的AI,只是在培养超级听话的学生,而不是变革者。这种模式很适合打造懂事、听话的助手,但如果我们不去引导AI质疑自己的训练数据、鼓励它们挑战旧观念,那么AI就永远无法引发真正的科学革命。
如果想要AI带来真正的突破,我们可能需要彻底改变评价AI的方法,测试它们能否:
- 质疑自己所掌握的知识;
- 提出大胆、反直觉的假设;
- 根据细微线索提出大方向上的创新;
- 提出非显而易见、能够开启新研究路线的问题。
我们真正需要的,不是考试每次拿满分的优等生,而是那个可能只拿B,但能敏锐察觉别人都忽略的问题的「奇怪学生」。
---
最后,也许你想知道:怎么才能衡量这种能力?
也许我们需要一种全新的测试方式:给AI一项最新发现(比如现代版的相对论),看它能否在完全不知道答案或相关概念框架的情况下,提出正确的关键问题。这确实很难实现,但却是AI领域真正需要考虑的问题。
以上就是我的想法,期待听到你的精彩观点。