Jim Fan 预言:距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间
以下为其推文转译:
除了大语言模型(LLM)之外,2024年最重大的领域无疑是机器人学。我们距离实体 AI 智能体实现 ChatGPT 式的突破仅有大约三年的时间。长期以来,我们一直受到莫拉维克悖论(Moravec's paradox)的困扰,这一直觉反常的现象表明:“人类觉得简单的任务,对 AI 来说却异常困难,反之亦然”。
2024年将成为 AI 领域首次大规模反抗这种困境的一年。虽然我们不会立刻取得胜利,但我们已经在通往成功的道路上迈出了坚实的步伐。
回顾2023年,我们已经初步见识到了未来机器人的基础模型和平台:
- 多模态大型语言模型与机器人手臂作为物理输入输出接口:VIMA、PerAct、RvT(NVIDIA)、RT-1、RT-2、PaLM-E(Google)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、卡内基梅隆大学)等。
- 连接高级推理(大型语言模型)与低级控制的算法:Eureka(NVIDIA)、Code as Policies(Google)等。
- 在坚固硬件方面取得巨大进步:Tesla Optimus @elonmusk、Figure @adcock_brett、1X @ericjang11、Apptronik、Sanctuary、Agility+Amazon、Unitree 等。
- 数据长期以来一直是机器人学发展的弱点。研究社区正致力于创造下一个“影像网”(ImageNet),如 Open X-Embodiment (RT-X) 数据集。尽管这些数据集的多样性尚未达到理想状态,但即使是微小的进步也意味着重大的飞跃。
- 在解决机器人灵活性甚至整个计算机视觉领域中,仿真和合成数据将扮演关键角色。
(1) NVIDIA Isaac 能以比现实时间快1000倍的速度进行仿真,其产生的数据量会随着计算能力的提升而增长。
(2) 通过硬件加速的光线追踪技术实现逼真效果,这种逼真的渲染还自带地面真值标注,比如分割、深度、3D 姿态等。
(3) 仿真器甚至能够扩展现实世界的数据,形成更大的数据集,从而大大减少昂贵的人类示范工作的需要。NVIDIA 的 MimicGen 就是一个很好的例子。
我个人全力投入这一领域。最精彩的部分还在后面。
点击图片查看原图