@levinzhang
2022-09-15T22:09:56.000000Z
字数 1772
阅读 487
by
Stability AI对外发布了Stable Diffusion的预训练模型权重,这是一个文本至图像的AI模型。根据文本提示,Stable Diffusion能够生成逼真的512x512像素的图像以描述提示中的场景。
Stability AI对外发布了Stable Diffusion的预训练模型权重,这是一个文本至图像的AI模型。根据文本提示,Stable Diffusion能够生成逼真的512x512像素的图像以描述提示中的场景。
在模型权重公开发布之前,它的代码已经发布,模型权重也有限发布给了研究社区。在最新的版本中,任何用户都可以在消费者级别的硬件中下载并运行Stable Diffusion。除了文本至图像的生成,该模型还支持图像至图像的风格转换以及图像质量提升。在发布该版本的同时,Stable AI还发布了beta版本的API以及模型的Web UI,名为DreamStudio。Stable AI这样说到:
Stable Diffusion是一个文本至图像的模型,它能让数十亿人在几秒钟内创建出令人赞叹的艺术品。在速度和质量方面,它都有所突破,这意味着它能在消费者级别的GPU上运行……这能够让研究人员和……公众在各种条件下运行,使图像生成技术走向大众。我们期待围绕该模型和其他模型出现一个开放的生态系统,以探索潜在空间的边界。
Stable Diffusion基于名为潜在扩散模型(latent diffusion models,LDMs)的图像生成技术。与其他的流行的图像合成方法不同,如生成对抗网络(generative adversarial networks,GANs)和DALL-E使用的自动回归技术,LDMs通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像。LDM是由Ludwig Maximilian University of Munich的机器视觉与学习(Machine Vision and Learning)研究组开发的,并在最近的IEEE / CVF 计算机视觉和模式识别会议(Computer Vision and Pattern Recognition Conference)上发表的一篇论文中进行了阐述。在今年早些时候,InfoQ曾经报道过谷歌的Imagen模型,它是另一个基于扩散的图像生成AI。
Stable Diffusion模型支持多种操作。与DALL-E类似,它能够根据所需图像的文本描述,生成符合匹配该描述的高质量图像。它还可以根据一个简单的草图再加上所需图像的文本描述,生成一个看起来更逼真的图像。Meta AI最近发布了名为Make-A-Scene的模型,具有类似的图像至图像的功能。
Stable Diffusion的很多用户已经公开发布了生成图像的样例,Stability AI的首席开发者Katherine Crowson在推特上分享了许多图像。基于AI的图像合成可能会对艺术家和艺术领域带来一定的影响,有些评论者对此感到不安。就在Stable Diffusion发布的同一周,一幅由AI生成的艺术品在科罗拉多州博览会的艺术比赛中获得了一等奖。Django框架的共同创建者Simon Williamson认为:
我见过一种说法,认为AI艺术没有资格获得版权保护,因为“它必须归功于全人类”——如果基于文本生成的设计尚不足以说服公众的话,那[图像至图像]技术可能会打破这种平衡。
Stable AI的创始人Emad Mostaque在推特上回答了一些关于该模型的问题。在回答一位试图估算训练模型所需的计算资源和成本的用户时,Mostaque说到:
实际上,我们为这个模型使用了256个A100显卡,总共15万小时,所以按市场价格计算为60万美元。
Mostaque给出了Reddit上一篇文章的链接,其中给出了如何最好地使用该模型来生成图像的技巧。
Stable Diffusion的代码可以在GitHub上找到。模型的权重以及Colab notebook和示例Web UI都可以在HuggingFace上找到。
查看英文原文:Stability AI Open-Sources Image Generation Model Stable Diffusion