当这些元素结合在一起,计算机的视觉能力不仅比以往更强,也开启了现代 AI 的新世纪。自那以后,我们走过了很长的道路。那是十年前,只标注物体就成了一种突破,就像初现曙光的三叶虫看到的第一缕光。但神经网络算法的速度和准确度很快就提高了。年复一年,我们实验室举办的 ImageNet 年度挑战赛,都在评估这些算法的性能,每次提交的结果都刷新了记录。如你所见,这张图展示了每年的进步和一些里程碑模型,实在是让人惊叹。
我记得我第一次公开展示了第一个能用人类的自然语言描述图像和照片的计算机视觉算法,就是自动图像字幕编写。那是我和我的优秀学生 Andrej Karpathy 合作的时候。我提议让 Andrej 试试反过来操作,用一个句子去生成一张照片。Andrej 回应说,“哈哈,那不可能。”然而,就如你从他最近的推特上看到的,没过几年,不可能变成了可能。这一切都归功于最新的生成式 AI 中所用到的扩散模型的发展。
AI 程序现在能够根据人类输入的任何句子创造出全新的照片或视频。你们中的许多人可能已经看到了 OpenAI 以及其他公司最近所创造的美丽成果——Sora 但是,在没有大量 GPU 的支持下,我和我的学生、合作者在 Sora 发布前的几个月,就创造出了一个叫做 Walt 的生成模型。这只是其中的一部分成果。你可以看到,我们仍有很大的进步空间,我们会犯错误。看看那只猫的眼睛,它甚至在水下游动时都没有打湿。我把它戏称为“猫灾”。我希望有人能为我编出更好的 AI 笑话。
不过,如果过去是序曲,我们会从这些错误中学习,并创造出我们想象的未来。在那个未来,我们希望充分发挥 AI 的所有能力。多年来,我一直强调,拍照并不等同于看到并理解它。现在,我想再补充一点,仅仅看到是不够的。看,是为了行动和学习。当我们在 3D 空间和时间中对世界采取行动,我们会学习,我们会更好地看和行动。
** 空间智能
大自然创造了一个由空间智能驱动的观察与行动的良性循环。为了解释你的空间智能在不断发挥作用,我们来看看这张照片。如果你看这张照片有想去做点什么的冲动,请举手。如果在现实生活中,你真的碰到过这种情况,就请保持举手。在过去的瞬间,你的大脑观察到了玻璃的几何形状,它在 3D 空间中的位置,以及它与桌子,猫,和周围所有事物的关系,然后你预测了接下来可能会发生的事情。然后,你可能会向那个玻璃杯扑去,以保护你的地毯免受污染。
这种行动的冲动是具有空间智能的生物所天生具有的,它将我们的感知与行动联系在一起。所以,要想让 AI 超越目前的能力,我们需要的不仅仅是能看或者说话的 AI。我们需要的是 AI 能做出行动。就像自然界使我们所做的那样。
最近,Google 的一个计算机视觉研究团队就实现了这一点。他们创建了一个算法,只需要一组照片,就能把数据转化为 3D 形状或场景。这里有更多这项工作的示例。同时,我的学生和同事受到斯坦福这项工作的启发,更进一步,他们创建了一个只需要一张图片就能生成 3D 形状的算法,就像你现在看到的。这里有一些最近工作的更多示例。
** 文字输入制作视频
我记得我们之前用过文字输入来制作视频。密歇根大学的一组研究人员找到了一种方法,可以把一行文字转化为 3D 房间布局。你现在看到的就是一个例子。同时,斯坦福的我的同事们及其学生,已经开发出一种算法,能够把一张图片转化为无数个可能的空间,供观众探索。这些原型是未来可能性初露头角的标志。
人类将以数字形式捕获我们的整个世界,并能模拟我们世界的丰富性和细微差别,这是一种可能性。自然在我们个体的心智中隐性完成的,现在空间智能 AI 有望在我们的集体意识中实现。随着空间智能的进步加速,这个虚拟周期的新纪元正在我们眼前展开。这种往返式的过程正在推动机器人学习的发展,这是任何需要理解并直接与 3D 世界互动的实体智能系统的关键组成部分。
** 机器人学习
十年前,我所在的实验室开发出的 ImageNet,这是一个包含数百万高质量图像的数据库,帮助计算机学会看。现在,我们正用行为和动作教计算机如何在 3D 世界中活动。我们现在不再手动创建训练样本,而是使用模拟环境,比如 NVIDIA Omniverse 提供的环境,它由 3D 空间模型驱动,提供无尽的变化和交互。
在 5.4 亿年前的原始海洋中,看见和感知环境的能力引发了寒武纪大爆炸与其他生命形式互动。今天,那束光开始照亮数字思维,就像曾经照亮我们祖先的思维一样。空间智能技术让机器能够相互交互,与人类交互,以及与 3D 世界交互,无论是真实的还是虚构的。随着这个未来的形态逐渐显现,我们可以设想,它会对很多生命产生深远的影响。
** 医疗健康应用
就拿医疗健康来说。过去十年里,我的实验室已迈出了重要的一步,在将 AI 技术应用于影响病人康复和医护人员疲劳问题方面。我和我的学生们,斯坦福医学院的同事,以及合作的医院一起,正在试点智能传感器,这些设备可以检测到医生是否在进入病人房间时正确洗手,可以跟踪手术中的器械,或者在病人身体处于危险,比如摔倒时,及时提醒护理团队。