@wuxin1994
2017-08-26T16:29:21.000000Z
字数 1950
阅读 1939
PaperNotes
Secure
Title:
Machine Learning as an Adversarial Service: Learning Black-Box Adversarial Examples
Authors:
Hayes, Jamie; Danezis, George
Publication:
eprint arXiv:1708.05207
Publication Date:
08/2017
Origin:
ARXIV
Keywords:
Computer Science - Cryptography and Security, Computer Science - Learning, Statistics - Machine Learning
Bibliographic Code:
2017arXiv170805207H
Adversarial Attack:最开始是一个优化问题,通过Lp距离度量,可以测量生成的对抗样本和原始输入的相似度,从而限制perturbation的规模。
攻击模型的构建:1)通过 distance measure (L0, L2 or L∞)来限制扰动规模,从而使得最终的对抗样本在一定程度上从视觉上难以分辨。 2)假设模型的背景是黑盒的,即是不知道目的模型的种类、结构、权重和超参数。因为在现实世界中,比如Amazon、Clarifai和Google等,都不会提供白盒信息。3)同时,在模型具有defence策略的情况下,在两个背景条件下进行了评估:一是考虑攻击者不知道目的模型是否已经有defence策略,二是攻击者已经知道了目的模型具有的defence策略。4)在黑盒攻击时,考虑最差的情况,让生成对抗样本的模型只能用很少的一部分输入数据。
数据集:文章实验主要用到的数据集是MNIST和CIFAR-10数据集,相比于ImageNet数据集,他们生成对抗样本更加困难。
攻击描述:本文的攻击是通过黑盒目标模型的输出来优化对抗样本生成模型。其整个流程可以描述如下:能够被正确分类的输入图像作为攻击模型的输入。攻击模型给这个输入加入perturbation,输出视觉上难以区分的对抗样本,在将这个对抗样本作为黑盒目标模型的输入时,产生错误的分类结果。
实验是假设知道目的模型的输出情况的,因为即使是在实际中,像谷歌和亚马逊,也会开放能获取神经网络模型输出的API。