@wuxin1994 2017-11-03T04:23:55.000000Z 字数 3240 阅读 1536

《NO Need to Worry about Adversarial Examples in Object Detection in Autonomous Vehicles》论文笔记

PaperNotes Secure

citation

Lu J, Sibai H, Fabry E, et al. NO Need to Worry about Adversarial Examples in Object Detection in Autonomous Vehicles[J]. 2017.

Introduction

这篇文章是在《Adversarial examples in the physical world》（A. Kurakin, I. J. Goodfellow, and S. Bengio. Adversarial examples in the physical world. CoRR, abs/1607.02533, 2016.）的基础上的进一步研究。因为在传统的对抗攻击构建过程中，对抗perturbation直接和数字图片叠加，作为神经网络模型的输入。Kurakin等人的研究中，对抗的perturbation被生成之后，如果和原始数据叠加后，不是直接作为模型的输入，而是通过相机拍摄的方式输入到模型中。Kurakin等人的研究模拟了实际physical场景下的对抗攻击场景，并且证明了对抗扰动在从对抗样本到拍照后的对抗样本的转化过程中，虽然有相机的noise，仍然是具有对抗性的。
同时，也因为《Concrete Problems for Autonomous Vehicle Safety: Advantages of Bayesian Deep Learning》（Mcallister R, Gal Y, Kendall A, et al. Concrete Problems for Autonomous Vehicle Safety: Advantages of Bayesian Deep Learning[C]// Twenty-Sixth International Joint Conference on Artificial Intelligence. 2017:4745-4753.）中应用对抗攻击到自动汽车驾驶问题中的挑战问题。
另一个相关研究是《Accessorize to a crime: Real and stealthy attacks on state-ofthe-art face recognition》（M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter. Accessorize to a crime: Real and stealthy attacks on state-ofthe-art face recognition. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, CCS ’16, pages 1528–1540, New York, NY, USA, 2016. ACM. ），本文的研究证明了在面部识别的实际应用中，通过构建对抗样本，不论是否已知面部识别模型的结构（黑盒或者白盒攻击），都可以在把实际拍摄脸部照片作为模型输入的情况下，极大地影响识别的结果。
上述研究都给神经网络模型的实际应用带来了很多concern。

本文的研究则是通过一些实验，证实物理世界中的对抗攻击在多种距离和角度效果不佳。在汽车驾驶中交通标示识别实验中，大部分的在汽车行进过程中拍摄对抗样本都被分类模型正确分类。

methods

论文的实验方法是使用多种攻击方法测试得到训练好的模型的稳定性。并且训练的模型有两种不同的结构。所用的数据集是width*length*depth的三维向量。
所用的攻击方法有：

Goodfellow提出的FGSM
[I. J. Goodfellow, J. Shlens, and C. Szegedy. Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572, 2014.]
Kurakin等人提出的迭代FGSM
[A. Kurakin, I. J. Goodfellow, and S. Bengio. Adversarial examples in the physical world.CoRR, abs/1607.02533, 2016.]
Szegedy 等提出的L-BFGS方法
[C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan,I. Goodfellow, and R. Fergus. Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199, 2013.]

与一般的对抗攻击研究只针对分类问题不同，本文所攻击的目标模型也采用了探测器模型：the YOLO multiple object detector [J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 779–788, 2016.]
本文中classifier与detector的不同之处在于：

classifier使用交叉熵损失函数，衡量输入图片真正的标签( $y_{true}$ )和输出的one-hot标签( $y_{fool}$ )的差别。
detector中，模型的输出是向量 $p_{output}$ ，但是输入样本却没有one-hot标示的标签（因为输入的数据是即时的，一直变化的）。因此实验设置是输入的标签的维度和输出一样，都为 $l_{p_{output}}$ 。

本文的实验方法与前面提到的攻击算法研究中修改图片不同，关注的是在物理世界的攻击，也就是打印应用这些攻击之后的图片并测试目标模型的稳定性。应用到实际场景时，作者考虑了拍摄相机与目标的距离和拍摄角度的变量影响。

experimental results

分析生成的对抗样本结果
首先是针对detector目标模型生成的对抗样本：

对比针对traffic sign classifier生成的对抗样本：

可以发现前者的密度更低。从直观理解也很容易，因为密度越高的对抗扰动可以让探测器的实时监测扰动更加困难。
整体的对抗样本稳定性的实验结果

DR%代表这个stop标志被识别的概率。表格中的Ori指的是完整的图片，Crop则指的是裁剪出只有交通标志的部分。表格的左边是对抗样本在直接作为模型输入时的对抗效果，右边是在现实场景下的实验结果。
从表格可以得出下面的结论：
只关注标志本身的，经过裁剪之后的对抗样本效果更好
在实际应用场景下，对抗样本的对抗性会随着距离的增加而减弱，模型的识别准确率会更高
从结果来看对抗攻击方法的效果，L-BFGS整体要差于FGSM方法。

而这篇文章主要关注的变量，也就是对样本效果影响最大的变量，就是距离的变化。从实验结果中最后两列可以看出，随着距离的增加，对抗样本的对抗性衰减十分明显。但是这种情况也有例外，这说明了对抗扰动的效果在随着距离而变化。因此，在实际应用场景下，探测系统/分类模型只需要调整距离和角度，是可以实现正确识别输入样本的。

conclusion

此外，这两天的对比看文章，和前几天看的《Standard detectors aren’t (currently) fooled by physical adversarial stop signs》比较相似，这一类的文章的内容只是通过实验推翻了前面研究的实验结果。
不过本文的观点显然也有一定的缺陷，因为在很多场景下，人们允许的失误率阈值会比较低，甚至不能容忍模型的识别错误。本文只是说明了对抗的效果没有Kurakin等人的研究中那么显著而已。