@sambodhi
2018-01-11T15:11:25.000000Z
字数 4643
阅读 3689
作者|Berkeley Artificial Intelligence Research
译者|Liu Zhiyong
编辑|Debra Chen
AI前线导语:从语音处理到医疗诊断,尽管深度神经网络已经在很多领域取得了巨大的成功,但最近的研究结果表明,它们很容易受到对抗干扰。对DNN输入所进行的这种恶意制作的改变将会导致它们以一种意想不到的和存在潜在危险的方式行事。
2017年8月,OpenAI曾发现对抗样本在图像不断变化时可能会失效,他们将一张小猫的图片放大后,神经网络分类器输出的结果变成“台式电脑”。MIT的LabSix研究小组在11月份也得出了相似的结论,他们在研究中制作了一些受到对抗干扰的3D模型,从而成功欺骗分类器,证明神经网络分类器完全可以被3D对抗样本完美地欺骗。许多机构和实验室已经开始注意到DNN的这个缺陷,他们用大量的研究向公众证明了它的潜在危害:基于深度神经网络的分类器很容易受到对抗样本的影响,即通过添加小幅度干扰而从导致对输入的错误分类。
不久前,加州大学伯克利AI研究团队发布了一篇文章[1],详细的阐述了深度神经网络的物理对抗示例。这篇文章是基于基于Ivan Evtimov、Kevin Eykholt、Earlence Fernandes、Tadayoshi Kohno、Bo Li、Atul Prakash、Amir Rahmati、Dawn Song和Florian Tramer的最新研究撰写。
更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
深度神经网络(DNN,Deep neural network)在各种应用领域都取得了很大的进展,包括图像处理、文本分析和语音识别等。在许多信息物理系统(cyper-physical system)中,DNN也是一个重要的组成部分。例如,自动驾驶汽车的视觉系统可以利用DNN来更好地识别行人、车辆和道路标志。然而,最近的研究表明,DNN很容易受到攻击:在输入中加入精心设计的对抗性干扰,可以误导目标DNN在运行时错误标记它们。当在现实世界中应用DNN时,这样的对抗示例带来了安全性问题。例如,对抗干扰的输入,可能会误导自动驾驶汽车的感知系统,将道路标志错误分类,从而有可能会产生灾难性的后果。
人们已经提出了一些技术,用来产生对抗的示例来防御它们。在这篇博文中,我们将简要介绍最先进的算法,以生成数字对抗的示例,并讨论我们的算法,在不同的环境条件下,在真实的物体上生成物理对抗的示例。我们还将提供有关我们为目标探测器生成物理对抗示例的更新。
在白盒设置中,人们已经提出了不同的方法来产生对抗示例,而对抗目标完全可以访问DNN。白盒设置假设一个强大的对抗目标,因此可以帮助人们开发未来的傻瓜式防御奠定基础。这些方法有助于理解数字对抗的示例。
Goodfellow等人提出了一种快速梯度法[2],该方法应用损失函数的一阶近似来构建对抗样本。人们基于优化[3]的方法,也提出了针对目标攻击的对抗干扰。具体来说,这些攻击制定了一个目标函数,其解决方案旨在最大限度地提高输入真实标记和攻击者期望的目标标记之间的差异,同时最小化输入相似度的定义。在计算机视觉分类问题中,一个常用的测量方法是输入向量的L2范数。通常,低L2范数距离的输入将彼此更接近。因此,有可能计算出与人眼非常相似的输入,但是对于分类器而言是非常不同的。
最近的工作已经研究了数字对抗示例的黑盒[4]转移性,在黑盒设置中产生对抗示例也是可能的。这些技术包括以白盒方式生成另一个已知模型的对抗示例,然后针对目标未知模型运行它们。
为了更好地理解这些缺陷,我们已经就对抗示例如何影响在物理世界中部署的DNN进行了广泛的研究。
Kurakin[5]等人指出,通过智能手机的摄像头,观看打印的对抗性样本可能会被错误分类。Sharif[6]等人通过在眼镜框上打印对抗干扰来攻击人脸识别系统。他们的研究工作证明了在相对稳定的物理条件下成功的物理攻击,在姿势、距离摄像头的距离/角度以及灯光的变化很小。这有助于理解稳定环境中的物理示例。
我们最近的一项研究:“基于深度学习模型的对物理世界的健壮性攻击[7]”显示了对分类器的物理攻击。(文末有两个视频[8][9])Athalye[10]等人表示,对在物理世界中对抗性输入进行转换的数字优化,可以产生针对分类器的3D对象的有效的对抗示例。作为下一个逻辑步骤,我们演示了对目标探测器的攻击。这些计算机视觉算法识别场景中的相关目标,并预测显示目标的位置和种类的边框。与分类器相比,探测器在处理整个图像时更具有挑战性,并且可以在预测中使用上下文信息(例如,场景中目标对象的方向和位置)。
我们演示了YOLO[11]探测器的物理对抗实例,YOLO探测器是一种很受欢迎的最新算法,具有良好的实时性。我们的示例,是在一个真正的STOP标志上采用贴纸干扰的形式,下图显示了我们的物理对抗干扰示例。
我们还通过录制视频来进行动态测试,来测试检测性能。从视频中可以看出,YOLO网络在几乎所有的帧中都没有感知到STOP标志。如果一辆真正的自动驾驶汽车行驶在道路上,有这样一个对抗的STOP标志,它将不会看到这个标志并停车,这样可能会导致在十字路口发生碰撞。我们创建的干扰对于距离和角度的变化是非常有效的:这是自动驾驶汽车场景中最常见的变化因素。
更有趣的是,为YOLO探测器生成的物理对抗示例也能够欺骗标准的Faster-RCNN[12]。我们的演示视频包含一个动态的测试,在Faster-RCNN上的物理对抗的示例。由于这是对Faster-RCNN的黑盒攻击,攻击并不像在YOLO示例那样成功。这是预期的行为。我们相信,通过附加技术(如整体训练),黑盒攻击可以变得更加有效。此外,特别优化对Faster-RCNN的攻击将产生更好的结果。下图是Faster-RCNN没有感知到STOP标志的一个示例。
在这两种情况下(YOLO和Faster-RCNN),只有当相机非常靠近标志(大约3~4英尺远)时,才会检测到停止标志。在实际环境中,这段距离对于车辆而言太过接近,无法采取有效的纠正措施。
这个算法是基于我们之前的攻击分类器的工作原理。从根本上说,我们采取优化方法来产生对抗的示例。然而,我们的实验经验表明,为探测器生成健壮的物理对抗实例需要模拟一组变化更大的不同物理条件,而非用来欺骗分类器。这很可能是因为探测器在生成预测时需要考虑更多的上下文信息。该算法的关键属性包括指定物理条件模拟序列的能力,以及指定平移不变性属性的能力。也就是说,无论目标对象位于场景内何处,干扰都应该是有效的。由于对象可以在场景中自由移动,取决于观察者,如果对象移动,此属性的干扰可能会中断。
鉴于数字和物理世界中都有这些对抗性示例,潜在的防御方法也被广泛研究。其中,不同类型的对抗训练方法是最有效的。Goodfellow等人[13]首次提出了对抗训练是提高神经网络健壮性的有效方法,Tramèr等人[14]将其延伸到集体对抗性学习。Madry等人[15]也提出了通过迭代训练和对抗性示例来建立健壮的网络。要进行对抗性训练为基础的防御,需要大量的对抗性示例。此外,这些对抗性的示例可以使防御更加健壮,如果它们来自集合训练工作的不同模型。集合对抗训练的好处在于增加对抗实例的多样性,使得该模型可以充分发掘对抗性示例的空间。还有其他类型的防御方法,但Carlini和Wangner[16]已经表明,这些现有的防御方法都没有足够强大的防御能力。
总的来说,我们还需要很长一段时间才能找到最佳的防御策略来对抗这些对抗示例。我们期待着探索这个令人兴奋的研究领域。