[关闭]
@levinzhang 2023-01-21T11:49:26.000000Z 字数 1014 阅读 410

谷歌AI发布新的文本至图像Transformer模型Muse

by

摘要:

谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成Transformer,可以生成与DALL-E 2和Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。


谷歌AI发布了一篇关于Muse的研究论文,这是一种新的文本至图像生成技术,它基于掩码生成(Masked Generative)Transformer,可以生成与DALL-E 2Imagen等竞争对手相媲美的高质量图片,但是速度要快得多。

Muse被训练为预测随机掩码图像的token,它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的token空间中进行掩码建模。Muse使用一个9亿个参数的模型,称为掩码生产transformer(masked generative transformer),以创造视觉效果,而不是采用像素空间扩散自回归模型。

谷歌声称,借助TPUv4芯片,可以在0.5秒内创建一个256*256的图像,而使用Imagen则需要9.1秒,根据谷歌的说法,Imagen使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU,即张量处理单元(Tensor Processing Unit),是谷歌开发的定制芯片,专门用作AI的加速器。

根据研究,谷歌AI已经训练了一系列不同规模的Muse模型,参数从6.32亿到30亿不等,研究发现,预先训练好的大型语言模型,对于生成逼真的高质量图像至关重要。

Muse的性能也超过了最先进的自回归模型Parti,因为它使用了并行解码,在推理时间上比Imagen-3B或Parti-3B模型快10倍以上,根据使用同等硬件的测试,比 Stable Diffusion v1.4快3倍。

Muse创建的视觉效果与输入中的各种语义成分相对应,如名词、动词和形容词。此外,它还展示了视觉风格和多对象特性的知识,如合成性(compositionality)和基数(cardinality)。

近年来,由于新的训练方法和改进的深度学习架构,图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像,在广泛的行业和应用中,它们正在成为越来越强大的工具。

查看英文原文:Google AI Unveils Muse, a New Text-To-Image Transformer Model

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注