@wuxin1994
2017-10-31T22:32:03.000000Z
字数 4471
阅读 2801
PaperNotes
Secure
Title: Robust Physical-World Attacks on Machine Learning Models
Authors: Evtimov, Ivan; Eykholt, Kevin; Fernandes, Earlence; Kohno, Tadayoshi; Li, Bo; Prakash, Atul; Rahmati, Amir; Song, Dawn
Publication: eprint arXiv:1707.08945
Publication Date: 07/2017
Origin: ARXIV
Keywords: Computer Science - Cryptography and Security, Computer Science - Learning
Bibliographic Code: 2017arXiv170708945E
最近的研究中,许多对抗样本构造方法在真实自然世界效果不好。已有的对抗攻击研究在现实世界中,往往不能使分类模型误分类,或者只在非常有限的情况比如复杂原始图像经修改后打印出来才能达到对抗攻击的目的。
本论文要点如下:
1. 提出Robust Physical Perturbations(RP2)算法,能产生鲁棒且自然有效的对抗扰动。
2. 使用RP2算法用两种方式构造对抗攻击:
-- subtle perturbations:对整个标志进行微小的、很难探测到的改动。把整个受到攻击后的图片打印后覆盖到原标志上面,尺寸和原图一样。
-- camouflage perturbations:以涂鸦或艺术画的形式对原图进行可见的改变。攻击者直接将扰动攻击打印出来,然后贴到已经存在的标志上面。
3. 因为目前缺乏衡量自然界对抗攻击效果的标准方法,因此论文提出了一种评估方法。
提出在physical world也有效的对抗样本生成算法的原因:
需要解决的问题:
这一部分先总结了三种对抗样本的生成方法:
这三种方法都假设能得到输入向量的数字层面的特征,这在自然情况自动汽车背景下不适用。同时,它们都需要perturbation程度比较小且不可见,因为直接以数字向量作为神经网络输入时,这种微小的perturbation不会被破坏。但是,如果把修改后的样本打印到纸张上,那么这种在自然界重建perturbation的过程就会在每个步骤造成信息的损失。因此(J. Lu, H. Sibai, E. Fabry, and D. Forsyth, “No need to worry about adversarial examples in object detection in autonomous vehicles,” arXiv preprint arXiv:1707.03501, 2017.)证实了这些方法在真实世界中效果不好。
然后介绍了本论文中两种攻击方式的由来:
数据集:LISA数据集,包含47种不同的路标图片,在本实验中重设尺寸为32×32
实验用TensorFlow工具构建分类器,神经网络结构为:三成带有全连接层的卷积层。最终的分类器准确率为91%。
攻击过程的选择,本实验只能修改测试集数据,即是evasion attacks。
攻击流程:
1. 得到没有对抗perturbation的干净目标路标图
2. 预处理路标图(维度等)将之作为分类器的输入
3. 用攻击算法处理分类器和提取的路标图片
4. 用映射函数在路标上输出相应的对抗perturbation的物理位置
5. 构建数字对抗perturbation,并基于上面函数的输出将这个改动应用到物理目标中。
自然对抗perturbation的评估方法:
受自然情况下环境条件、空间限制、样本构建误差、维度变化和不可探测的物理限制等影响,在评估对抗样本效果时,论文考虑了三个主要的方面:距离、角度和维度。
Robust Physical Perturbations(RP2)算法:
是一种优化的扰动生成方法,在untarget对抗攻击时,目标函数为
argmin λ||δ||p − J(fθ(x + δ), y),即是让加入扰动后的输出损失越大越好。
在target对抗攻击时,目标函数为
argmin λ||δ||p + J(fθ(x + δ), y0),即是让加入扰动后输出损失与特定目标差别越小越好。
其中λ都代表对扰动规模的限制。