[关闭]
@wuxin1994 2017-09-26T21:32:01.000000Z 字数 1302 阅读 1578

《Conditional Generative Adversarial Nets》论文笔记

PaperNotes GAN


以前知道有条件生成对抗网络,可以在生成器和判别器的输入增加一个条件y~但是不知道这个条件具体是什么,怎么加的,因此看了一下这篇论文是如何增加条件作为输入的~
Motivation:现在的生成对抗网络具有不需要马尔科夫链、通过反向传播就可以得到梯度、在学习过程中不需要推断、多种因素很容易加入到模型中等优点。但是在非条件的生成对抗网络模型中,对生成数据的模型没有控制。因此,如果可以将其他信息作为模型的条件输入,那么就有可能引导模型的生成过程。这些条件可能是类别标签、或者像图片补全中的一部分数据甚至是不同模式的数据。
Related work:监督神经网络,尤其是通过卷积神经网络结构,取得了较大的成功。但是,也有两个问题很难解决。第一个问题是,在处理预测的类别数量规模尤其大时很有挑战性。第二个问题是,许多对数据的处理都关注于从输入到输出的“一对一”映射。但是,许多现实问题都被自然而然地视作是概率性的一对多映射。比如在图片案例中,一张已给的图片可能适合于多个标签,同时对于不同的观察者,可能用到不同的术语(其意义可能是相似或者相关的)来描述同一张图片。
Model:生成对抗网络中,生成器构建了一个从先验噪声分布到数据空间的分布G(z;θ_g),同时判别器构建了一个构建了一个从输入数据空间到一个数字的映射,这个数字输入来源于真实样本而不是生成样本的概率。其损失函数可以表示为:


当生成器和判别器都以额外的信息y(y可以为任意形式的额外信息)作为条件时,生成对抗网络可以扩展到条件模型中。损失函数可以表示为

Experiment:
 A:MNIST图片集
其条件y是用one-hot编码表示成的类别标签。
具体的结构是,将维度为100的平均分布的随机噪声映射到ReLu激活函数的的隐含层中,隐含层规模为200和1000,然后再将隐含层结合起来,输入到最后一个sigmoid层,输出是784维的MNIST样本。
 B:Flickr数据集
用到的数据集为MIR Flickr 25,000数据集,这里面的标签都是用户生成的元数据,因此这些标签的描述性更强,能更在意思上靠近人类用自然语言描述一张图片。同时,这个数据集同义比较常见,多个单词可能被用来描述同样的方面。论文用了卷积模型和语言模型来获得图像和标签信息。在用这个数据集时,作者还剔除了频次比较低的标签词,剔除了没有任何标签的图像。最终的模型,输入是图片和用户打的标签,输出是预测的多标签。这些标签都表示对图片特征的描述。
Conclusion:论文中作者的模型效果比较差,但是重在提出了一个新思路,说明了条件生成对抗网络的潜力,很有应用前景。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注