@wuxin1994
2017-10-17T21:36:02.000000Z
字数 1940
阅读 4270
PaperNotes
Secure
Madry A, Makelov A, Schmidt L, et al. Towards Deep Learning Models Resistant to Adversarial Attacks[J]. 2017.
文章以robust optimization的视角研究研究神经网络的对抗稳定性。提出natural saddle point formulazation作为掌握对抗攻击安全性概念的核心公式。这个公式的应用可以解决两个问题:一是可以能让神经网络达到的安全性更加可解释;二是能将目前提出的大多数攻击方法和防御策略放入到一个公共的理论框架中。
鞍点公式如下,文章以这个公式为核心:
过去的工作主要集中在两个主要问题:
通过上面对鞍点公式的简单解读,可以将对抗和防御结合起来。但是,如何优化这个公式,得出最终的解也是个问题。因为在优化最大值问题是,目标函数可能是非凹的。这个问题可以通过linearize the inner maximization问题来实现。文章通过PGD工具——一种解决大规模约束优化问题的标准方法,从MNIST和CIFAR数据的大量随机点开始PGD,结果发现这样得到的损失值确实能达到最大优化的目的。
从实验结果来看,对五个不同的样本训练时,用对抗训练的方式和传统的模型训练,从不同的初始值开始,对抗训练得到的结果比较统一,说明用随机初始的方法得到的结果是可靠的,误差比较小。
而在训练稳定模型时,用这种从多种随机点取PGD方法得到的对抗样本进行训练,显示也能迅速收敛到最大值。说明这种方法可以实现稳定模型的训练。
文章主要通过解决对鞍点公式在非凸非凹的时候的优化问题,给构建稳定的深度神经网络模型提供了理论支撑。这个方法的效果通过实验证明的确是有用的,通过随机restart和PGD方法的结合,能够在训练过程中很好地解决这个优化问题。不过这个方法在MNIST数据集上的效果相对比在CIAFR数据集上更好,因此还可以进一步优化。