OpenAI秘密内测新平台✔️
“当使用过它之后,我对Midjourney已经再也提不起一点兴趣了。”这句“虎狼之词”出自一位OpenAI新图像生成平台的内测用户之口。显然,OpenAI已经再一次做好了掀桌子的准备,而这次他们所瞄准的,正是AI图像生成领域。
根据YouTube博主MattVidPro透露,他的一位粉丝在不久前获得了OpenAI新图像生成平台的内测资格,并向他悄悄透露了大量利用新平台生成的作品。
MattVidPro在视频中表示,据这位粉丝透露,OpenAI正在秘密测试一个全新的图像生成平台,该平台很可能是此前OpenAI所发布的文生图工具Dell-E 2的升级版。并且这次测试非常隐蔽——用户需要在一个仅能容纳400人的OpenAI独家测试服务器中访问该平台。
在进行了一段时间的尝试后,这位粉丝发现,新平台不仅能够创建具有头发、灯光、广告副本等细节特征的逼真图像,而且在生成连贯细节和遵循提示词方面具有极强的能力。在许多任务的执行效果上甚至可以吊打如今AI生成图领域名气最盛的Midjourney。
首先是连贯细节方面,了解AI图像生成模型的人可能会知道,当前绝大多数模型都无法准确处理生成图中的文字内容。Midjourney也同样拥有这项缺陷。一个来自互联网的例子是:“生成红色铅笔,上面印有‘welcome’的文字。”Midjourney虽然完成了红色铅笔的生成,但文字呈现方面可以说一塌糊涂。
但显然,OpenAI已经找到了解决这一问题的方法,在MattVidPro所展示的图片中,新平台在处理相似任务时的表现可以说非常炸裂。无论是生成写有博主ID的海报,还是生成《GTA5》的游戏盒子全都不在话下,并且图像中的主体文字内容完全没有出错。
除此之外,在面对较为复杂的提示词时,相比于Midjourney,OpenAI新平台所生成的图像内容显然更接近提示词的描述。这里一个典型的例子是根据以下提示生成图像:“在一场自行车比赛中,一名粉色小丑正在与一只熊猫击掌。自行车是由奶酪制成的,地面非常泥泞。他们在一个多雾的森林里骑车,熊猫很生气。”在Midjourney所给出的四张作品中,一只熊猫没有骑车,而其余三只的座驾都是没有出现奶酪元素的摩托而非自行车,并且四张图片中均没有出现小丑角色,熊猫的表情看起来也与生气毫不沾边
而OpenAI平台在相同任务上的表现则无需多言,所生成作品包含了提示中的几乎全部细节。
但根据OpenAI于3月所发表的论文,不少专业人士推测,该平台很可能利用了全新的“一致性模型”而非目前业内主流的“扩散模型”。
在这篇名为《Consistency Models》的论文中,OpenAI提到,一致性模型在训练速度上覆盖了扩散模型,能够“一步生成”,能够比扩散模型更快实现简单任务,且所用计算量要少10-2000倍。此外,一致性模型也允许“多步采样”,以计算换取样本质量。因此即使没有迭代过程,一致性模型也可以产生高质量结果,并能快速适用于实时任务。
与扩散模型相同,一致性模型也支持零样本数据编辑。例如在修补、着色或超分辨率任务中,一致性模型可以从预先训练的扩散模型中提取数据,也可以单独进行训练。根据OpenAI的说法,一致性模型能在所有非对抗性单步生成任务中胜过扩散模型。
并且以上所提到的两种训练方式都将“对抗训练”从中删除了。这是由于对抗训练过程较为复杂,虽然这更易于产生强大的神经网络,但对抗训练的方式也会导致模型预测的准确率下降。部分业内人士认为,这便是OpenAI新平台能够在处理连贯任务和遵循提示方面表现得更好的主要原因。
除此之外,一个没有太多依据的猜测是,在Dall-E 2发布的几个月前,OpenAI发表了几篇关于扩散模型的论文。如果从时间维度推测,新平台则很可能利用了全新的一致性模型。当然,以上这些也只是目前业内的普遍猜测,在OpenAI官方发声之前,估计我们也很难了解到更多关于该平台的技术细节。
而对于OpenAI为何要如此隐蔽的对该平台进行测试,根据博主MattVidPro的说法以及几个相关的图片案例来看,目前该平台似乎仍未完成全部的开发工作,一些细节方面的问题依然有待进一步完善。
首先便是一直以来都困扰着生成模型的“画手”问题,虽然在大部分情况下表现还算不错,但新平台偶尔也会在生成人物手部细节时犯错误。例如在这张“打喷嚏的粉发少女”中,我们可以清晰地看到人物的手指被描绘成了六根。
除此之外,根据粉丝的透露,目前该平台还没有设置任何安全限制,能够生成包含血腥暴力、色情等敏感元素的图像,甚至有时一些敏感图像会在没有提示的情况下弹出。视频中,MattVidPro分享了一张相对委婉的生成图像,并表示一些“有点出格的作品”并不方便公开展示。
对于OpenAI的下一步计划,不少网友也在Youtube上留下了自己的观点。部分人认为,由于GPT4目前已具有了多模态信息处理能力,OpenAI很可能会基于新平台在下一版ChatGPT中集成强大的AI生成图功能
点击图片查看原图
点击图片查看原图
点击图片查看原图