@wuxin1994 2017-08-15T15:34:41.000000Z 字数 1852 阅读 2532

《Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples》论文笔记

PaperNotes Secure

Citing

Papernot N, Mcdaniel P, Goodfellow I. Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples[J]. 2016.

Abstract

机器学习模型已经被证明容易受到对抗攻击。其可移植性已经在以前的工作中得到了证明。而所谓的可移植性，即是攻击者可以在对受害者的信息了解比较少的情况下，通过训练自己的替代模型生成对抗样本，并且这些样本可以对受害者起到作用。
而本文的研究方向主要是两个：一是通过reservoir sampling极大地增强了训练替代模型的效果；二是对于过去研究没有涉及的机器学习分类模型，尤其是SVM和决策树模型，文章引入了一种可移植的对抗攻击；三是文章在两个商用机器学习分类系统中（Amazon和Google）中应用了得到的对抗攻击，证明已有的机器学习模型不论结构如何，都容易受到系统化的黑盒攻击。

Introduction

简单介绍对抗样本的应用场景：欺诈检测，旁路内容过滤以及恶意软件检测。这些攻击的本质都是对机器学习训练的不完美性和近似估计的攻击。
介绍对抗样本可移植性（Adversarial sample transferability）的概念：即产生的用来误导一个分类模型的对抗样本同时也能误导另一种分类模型——即便这两者的结构大不相同。
这篇论文的contribution：
1. 引入针对支持向量机和决策树的对抗样本构造技术——这两者都是不可微的机器学习模型。
2. 研究了对抗样本的可移植性：用相同构造方法构造的对抗样本在模型间具有可移植性；同时，用不同构造方法，或者用综合各种方法得到的对抗样本，在训练的模型间也具有可移植性。与以前研究对抗样本可移植性中，这些模型中一定有一个神经网络模型不同，本论文旨在更加概括地衡量对抗样本在各种模型中的可移植性，因此，这些研究涵盖了大部分流行的机器学习算法。
3. 可替代模型的选择上，从深度学习泛化到了logistics回归和支持向量机上。并且，文章显示，可能以超过80%的比率学习到由许多机器学习模型产生的匹配替代标签。通过引入新的超参数和reservoir sampling的使用，文章提升了准确度和过去提出的替代模型学习技术的计算代价。
4. 文章在Amazon和Google使用的分类器上进行了黑盒攻击。结果显示，尽管缺少对分类器内部知识的了解，仅仅通过用800条目标网络的请求数据训练的logistics回归替代模型，最终我们能使目的分类器的误分类率达到96.19%和88.94%。

Approach Overview

首先引入两个概念：
intra-technique transferability:定义为多个模型使用的机器学习算法相同，但是参数初始化和数据集不同。
cross-technique transferability:定义为多个模型使用的机器学习算法不同。

设计对机器学习分类器的黑盒攻击，主要围绕两个相关假设：
假设1：intra-technique和cross-technique对抗样本移植性在机器学习技术范围中是比较明显的现象。
假设2：在实际应用中，黑盒攻击可能对任何未知机器学习分类器都有效。

Experiment

假设1的实验：
数据集用的MNIST数据集，共70000幅带标签的图片。
实验主要分为两部分，即intra-technique 和 cross-technique。其中，每个部分用到的机器学习算法有：DNNs，LR，SVM，DT，kNN，Ens(Ensembles)。
实验结果证明，相比于不可微的模型如SVMs，DTs，kNNs，可微的模型比如DNNs和LR的intra-technique更加明显。同时，实验也发现，DNNs和kNNs对cross-technique对抗攻击更加稳定，而其他机器学习模型，包括Ens模型（各种作预测的模型的集合），更加容易受到cross-technique的移植性攻击。

假设2的实验：
为了说明黑盒攻击的可行性，文章进行了两个实验，在不知道模型的任何参数和结构信息的前提下，分别在谷歌和亚马逊的数据集训练的模型上完成对抗攻击实验，达到了比较好的攻击效果。