世界模型的概念是 Runway 先提出来的(至少从公开的信息来看),他们想打造一个超越纯文本大语言模型的世界模型,融合文本、音频、图像和视频,让模型自己拥有自己的心智图谱,理解真实世界的样子,探索世界中的“为什么”和“怎么办”。
结果 OpenAI 做了 Runway 想做还没做好的事情……
以下内容是基于字幕文本整理:
在探索人工智能的未来时,我们经常寻找那些能够突破现有技术极限的革新模型。想象一下,如果下一代AI模型采用的是一种更类似于我们心爱的宠物——比如我的狗狗Reuben——的思考方式,这将会怎样改变我们对创新的看法?
大语言模型(LLMs),比如能够创作诗歌、文章甚至电影剧本的AI,已经深入人心。这些模型的工作原理基于预测文本序列中的下一个词元,因此它们对句子的理解越深,生成新句子的能力就越强。随着这些模型在预测能力上变得更加精准,它们对世界及其模式的理解也日益加深,引领我们进入一个由大模型和大数据驱动的全新人工智能时代,扩展了它们的世界知识。
然而,LLMs的局限性在于,它们只能理解语言信息。这引出了一个有趣的思考:如果我们将这种大数据和大模型的策略应用于视频内容生成,会发生什么呢?这就是通用世界模型(GWMs)的概念。GWMs不仅需要文本数据,还需要视频、图像和音频等多种形式的数据来全面理解世界的运作。这些丰富的信息源能够帮助模型为自己构建一种心智地图,类似于我们心爱的宠物Reuben对世界的理解方式。
Reuben通过观察和经验,建立了一个基于他所了解的世界的内部模型。他知道哪条路可能会带他去公园,哪条路边可能有他不喜欢的狗,以及在哪里可以找到他喜欢的零食。通过这些数据——视觉、听觉和事物间的关系——Reuben学会了如何预测某些结果并相应地调整他的行为。这种能力,与通用世界模型的目标不谋而合。
令人兴奋的是,这些模型有能力将其对世界的理解推广到新的和未曾见过的情境中。这意味着,它们不仅能够根据已知信息预测未来,还能够探索世界的“为什么”和“怎样”,从而获得比大语言模型更为深入的理解。
总的来说,通用世界模型的兴起预示着一个更加丰富、更接近于人类或我们的宠物如Reuben的心智世界的AI未来。通过模拟这种复杂的、基于多种数据源的理解方式,AI的下一阶段将更加贴近于我们对世界的理解和互动方式,开启了真正的创新时代。
视频来源:https://t.co/zFwq5phwWs