Jim Fan 对 Sora 的点评👍🏻:
- Sora 代表了文本生成视频的 GPT-3 时刻
- Sora 必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。它必须理解游戏引擎的概念,才有可能生成视频。
- 我们不应仅仅关注 GPT-3 的缺点。更应该思考,随着技术进步,GPT-4 将会带来哪些可能性。
以下内容为原推转译
***
我注意到了一些直言不讳的对 Sora 反对声音:“Sora 并没有在学习物理,它仅仅是在二维空间里对像素进行操作。”
对于这种把问题简单化的看法我必须表示不同意见。这种说法就像是在说“GPT-4 并不学习编码,只是在随机选择字符串而已”。实际上,Transformer 的工作只是在操作一连串的整数(即 Token ID)。神经网络的工作,也仅仅是在处理浮动数字。这种观点显然是片面的。
当我们大规模扩展从文本到视频的训练时,Sora 所展现的软物理仿真实际上是一种随着规模扩大而出现的特性。
- GPT-4 必须学会某种内部的语法、语义和数据结构,才能生成可执行的 Python 代码。它并不是直接存储 Python 的语法结构。
- 类似地,Sora 必须学习一些隐式的文本到 3D、3D 变换、光线追踪渲染和物理规则,才有可能精确地模拟视频像素。它必须理解游戏引擎的概念,才有可能生成视频。
- 如果我们不考虑交互的话,UE5 就是一个(极其复杂的)生成视频像素的过程。同样,Sora 也是一个过程,它通过端到端的 Transformer 来生成视频像素。这两者在抽象层次上是相同的。
- 不同之处在于,UE5 是通过手工制作和精确设计的,而 Sora 则是通过数据学习和直观感受来实现的。
Sora 会取代游戏引擎开发者吗?绝对不会。它对物理的理解虽然是一种新的尝试,但仍然不够成熟,远远达不到完美。它经常会产生一些与我们对物理常识的理解不一致的幻觉。目前,它对物体间互动的理解尚不到位 —— 观看下面的视频中的不自然错误就能明白。
Sora 代表了文本生成视频的 GPT-3 时刻。回想 2020 年,尽管 GPT-3 模型存在不少问题,需要大量的提示工程,但它首次引人瞩目地展示了在上下文中学习这一涌现性质。
我们不应仅仅关注 GPT-3 的缺点。更应该思考,随着技术进步,GPT-4 将会带来哪些可能性。
Your browser does not support the video tag.