WonderJourney:是一个由斯坦福大学和谷歌合作开发的项目。
它能够根据用户提供的文本描述或图片,自动生成一系列3D场景的连续画面。
这些场景不仅多样化,而且彼此之间还能紧密衔接,形成一种虚拟的“奇妙旅程”场景。
而且你只需要输入一段描述或上传一张图片即可...
主要功能特点:
与之前专注于单一场景类型的视图生成工作不同,WonderJourney从任何用户提供的位置(通过文本描述或图像)开始,生成一系列多样化但连贯相连的3D场景。
1、从任意位置出发:用户可以通过提供一段文本描述或一张图片来指定一个起始点。基于这个起始点WonderJourney将生成一系列3D场景。
例如,如果用户上传一张森林的图片或描述一个城市景观,WonderJourney会从这个场景开始,创造一连串与之相关的3D场景。
2、长时间的“奇妙之旅”:WonderJourney能够生成不仅多样化而且持续较长时间的3D场景序列。
用户可以体验一段长时间的虚拟旅程,其中场景会连续不断地变化,提供丰富的视觉体验。
3、多样化的目的地:即使从同一个起始点出发,WonderJourney也能生成通往不同“目的地”的多条“奇妙之旅”。
例如,从同一张森林图片出发,一条旅程可能以山脉为终点,而另一条可能以海滩结束,展现出不同的场景和风格。
4、受控的“奇妙之旅”:用户可以通过提供一系列文本描述(如诗歌、俳句或故事摘要)来指导生成的旅程。
这允许用户创造更具个性和主题性的旅程。例如,根据一首诗的情感和意象,生成一系列与之相匹配的场景。
工作原理:
该框架利用大语言模型(LLM)生成场景的文本描述,一个由文本驱动的点云生成管道来制作引人入胜且连贯的3D场景序列,以及一个视觉语言模型(VLM)来验证生成的场景。
1、场景描述生成:使用大型语言模型(LLM)自动生成场景描述。根据用户输入的文本或图像,LLM提供场景的语义和概念描述。
2、文本驱动的视觉场景生成:根据LLM生成的场景描述,使用文本驱动的视觉场景生成模块创建3D场景。该模块将文本描述转换为彩色点云,形成3D场景。
3、视觉验证:使用视觉语言模型(VLM)对生成的场景进行检查。确保场景没有不希望的视觉效果,如视觉上的错误或不连贯性。
4、连贯性和多样性:生成的3D场景在视觉上连贯,同时在风格和类型上多样化。形成一种连续的视觉旅程,模拟在一个虚拟“奇妙世界”中的体验。
项目及演示:https://t.co/TmAnGOSjPv
论文:https://t.co/g2s67ROyFF
GitHub:https://t.co/B9iRyLt60H(oming soon!)