WonderJourney：是一个由斯坦福大学和谷歌合作开发的项目。它能够根据用户提供的文本描述或图片，自动生成一系列3D场景的连续画面。这些场景不仅多样化，而且彼此之间还能紧密衔接，形成一种虚拟的“奇妙旅程”场景。而且你只需要输入一段描述或上传一张图片即可...主要功能特点：…

发布时间: 2023-12-10 18:30:15

1分

数据加载中

WonderJourney：是一个由斯坦福大学和谷歌合作开发的项目。
它能够根据用户提供的文本描述或图片，自动生成一系列3D场景的连续画面。
这些场景不仅多样化，而且彼此之间还能紧密衔接，形成一种虚拟的“奇妙旅程”场景。
而且你只需要输入一段描述或上传一张图片即可...
主要功能特点：…
IT技术
( twitter.com )

WonderJourney：是一个由斯坦福大学和谷歌合作开发的项目。

它能够根据用户提供的文本描述或图片，自动生成一系列3D场景的连续画面。

这些场景不仅多样化，而且彼此之间还能紧密衔接，形成一种虚拟的“奇妙旅程”场景。

而且你只需要输入一段描述或上传一张图片即可...

主要功能特点：

与之前专注于单一场景类型的视图生成工作不同，WonderJourney从任何用户提供的位置（通过文本描述或图像）开始，生成一系列多样化但连贯相连的3D场景。

1、从任意位置出发：用户可以通过提供一段文本描述或一张图片来指定一个起始点。基于这个起始点WonderJourney将生成一系列3D场景。

例如，如果用户上传一张森林的图片或描述一个城市景观，WonderJourney会从这个场景开始，创造一连串与之相关的3D场景。

2、长时间的“奇妙之旅”：WonderJourney能够生成不仅多样化而且持续较长时间的3D场景序列。

用户可以体验一段长时间的虚拟旅程，其中场景会连续不断地变化，提供丰富的视觉体验。

3、多样化的目的地：即使从同一个起始点出发，WonderJourney也能生成通往不同“目的地”的多条“奇妙之旅”。

例如，从同一张森林图片出发，一条旅程可能以山脉为终点，而另一条可能以海滩结束，展现出不同的场景和风格。

4、受控的“奇妙之旅”：用户可以通过提供一系列文本描述（如诗歌、俳句或故事摘要）来指导生成的旅程。

这允许用户创造更具个性和主题性的旅程。例如，根据一首诗的情感和意象，生成一系列与之相匹配的场景。

工作原理：

该框架利用大语言模型（LLM）生成场景的文本描述，一个由文本驱动的点云生成管道来制作引人入胜且连贯的3D场景序列，以及一个视觉语言模型（VLM）来验证生成的场景。

1、场景描述生成：使用大型语言模型（LLM）自动生成场景描述。根据用户输入的文本或图像，LLM提供场景的语义和概念描述。

2、文本驱动的视觉场景生成：根据LLM生成的场景描述，使用文本驱动的视觉场景生成模块创建3D场景。该模块将文本描述转换为彩色点云，形成3D场景。

3、视觉验证：使用视觉语言模型（VLM）对生成的场景进行检查。确保场景没有不希望的视觉效果，如视觉上的错误或不连贯性。

4、连贯性和多样性：生成的3D场景在视觉上连贯，同时在风格和类型上多样化。形成一种连续的视觉旅程，模拟在一个虚拟“奇妙世界”中的体验。

项目及演示：https://t.co/TmAnGOSjPv
论文：https://t.co/g2s67ROyFF
GitHub：https://t.co/B9iRyLt60H（oming soon!）