Stability AI 推出推出一种全新的图像生成模型:Stable Cascade
Stable Cascade特别的地方在于它通过一个“三阶段方法”的来让图片生成变得更高质量、更灵活,不仅在美学和功能性上设定了新的标准,还大大降低了对高端硬件的需求!
而且与SD相比训练成本降低16倍!
通俗来讲它通过一个叫做“三步走”的过程来完成:
1.第一步,它先把你的文字转换成一种叫做“潜在表示”的小图块,可以想象成一个非常模糊的小图像草稿。
2.第二步,通过两个阶段(我们叫它Stage A和B)把这个模糊的草稿变成一个清晰的高分辨率图像。这就像是先画出一个大概的草图,然后再逐步细化,最后上色,使其变得栩栩如生。
3.第三步,就是让这个过程变得高效且灵活。Stable Cascade能够让你只对文字转换那部分(第一步)进行调整和改善,而不需要每次都重新画整个图像。这样不仅节省了大量时间,还大大降低了需要的计算资源。
而且,它能根据不同的需要,使用不同“大小”的模型来完成任务。如果你想要更高质量的图像,可以选择“更大”的模型;如果你的电脑配置较低,也有“更小”的模型可供选择,这样就能确保每个人都能使用这项技术。
Stable Cascade在制作图像时,不仅仅关注图像看起来是否美观,还会确保图像与你输入的文字尽可能吻合。这意味着,它能够理解你的文字,然后创造出与之相匹配的场景。
核心特点和技术细节:
• 潜在生成阶段(Stage C):将用户输入转换为紧凑的24x24潜在表示,这些表示随后传递给潜在解码阶段(Stage A & B)。这一阶段用于压缩图像,与Stable Diffusion中的VAE(变分自编码器)的作用相似,但实现了更高的压缩率。
• 解码与高分辨率生成(Stage A & B):通过将文本条件生成(Stage C)与解码到高分辨率像素空间(Stage A & B)解耦,允许在Stage C上单独完成额外的训练或微调,包括ControlNets和LoRAs。这比训练类似大小的Stable Diffusion模型降低了16倍的成本。
模型参数:
Stage C有两种不同的模型,分别为10亿(1B)和36亿(3.6B)参数;
Stage B则为7亿(700M)和15亿(1.5B)参数。推荐使用3.6B参数的Stage C模型,因为这个模型输出的质量最高。但对于那些希望关注最低硬件要求的用户,可以使用1B参数版本。对于Stage B,两者都能获得出色的结果,但15亿参数的模型在重建细节方面表现更佳。
性能比较和用户体验:
• 性能比较:在多个模型比较中,Stable Cascade在提示对齐和美学质量方面表现最佳。人类评估使用了混合的部分提示和美学提示来显示结果。
• 推理速度和VRAM要求:Stable Cascade的推理速度与其他模型(如SDXL,Playground v2等)进行了比较,显示了其在推理速度上的优势。预期的VRAM需求约为20GB,但通过使用较小的变种可以进一步降低,尽管这可能会降低最终输出的质量。
高效的训练和微调:
通过将文本条件生成与解码到高分辨率像素空间的过程解耦,Stable Cascade允许在Stage C进行额外的训练或微调,包括ControlNets和LoRAs,实现了与训练类似大小的Stable Diffusion模型相比16倍的成本降低。
总之:Stable Cascade通过其模块化方法和创新的三阶段处理,不仅在美学和功能性上设定了新的标准,还大大降低了对高端硬件的需求,使更多的用户能够访问和利用先进的文本到图像生成技术。
详细:https://t.co/mwgaUvy7zs
GitHub:https://t.co/WQtI9iQPxy
HuggingFace:https://t.co/WQtI9iQPxy
点击图片查看原图
点击图片查看原图
点击图片查看原图