@wuxin1994
2017-11-06T23:37:20.000000Z
字数 3763
阅读 2366
学习笔记17
简单读了文章《Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures》
和《Hacking smart machines with smarter ones: How to extract meaningful data from machine learning classifiers》,以前写对抗攻击的时候,总是把攻击分成两类:evasion attack和poisoning attack。总结了另外一种攻击形式exploratory attack,这种分类方式在其他文章中提及地比较少。
Exploratory attacks do not attempt to influence training; instead they try to discover information from the learner that includes discovering which machine learning algorithm/technique is being used by the system, state of the underlying model and training data.
这种攻击的具体实现分为下面三种情况:
1. Model inversion
比如在遗传药理学研究中,机器学习技术被用来根据病人的基因种类和其他相关背景辅助药物治疗。因此,在这种healthcare领域,迫切需要保证病人的隐私和治疗记录。但是,Fredrikson等人的研究却发现利用上述机器学习模型(尽管只有black box access),加上关于病人的统计(demographic information)信息,就可以预测用户的基因特征(genetic markers)。
在Fredrikson等人的研究中,他们对model inversion attack进行了三个方面的研究工作:首先是在只能得到面部识别系统API和待识别用户的姓名的情况下,恢复出用户的面部图片(实际上就是探索攻击的特征——得到机器学习模型的使用的主要特征,用这些特征获取利益);第二部分是用决策树攻击一个“生活方式”的调研,从回答中可以推测是否是作弊;第三部分则是提出了一些针对model inversion attack的应对措施,show that systems can be secured against these kinds of attacks with negligible degradation to utility。
[Matt Fredrikson, Somesh Jha, and Thomas Ristenpart. “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures”. ACM SIGSAC Conference on Computer and Communications Security 2015 (CCS’15).]
2. Inferring useful information(inference attack)
另外,尽管现在很多机器学习算法是公开的,但是在商业应用中,构建特征工程的训练数据却是商业机密。但是,机器学习模型却无意识地泄漏了这些统计信息(毕竟模型就是在这些数据的基础上训练出来的)。Ateniese等人的研究显示,可以从机器学习分类器中infer一些意想不到(unexpected,也就是得到了一些数据集里面本来不是训练集的特征——在训练中没有被利用的特征)的但是很有用的信息。(Using the methodology proposed, an adversary infers statistical properties from the relationship among dataset entries and not the attributes of the dataset)他们的研究进行了两部分的实验:一部分是利用一个基于隐式马尔科夫(Hidden Markov Models)的演讲识别分类器的模型,得到了演讲者的口音(accent)信息。另一部分实验针对用网络数据流数据集中训练得到的网络流量分类器,可以从中得到“决定一个特定数据流是否包含在数据集中”的信息。
[Giuseppe Ateniese, Luigi V. Mancini, Angelo Spognardi, Antonio Villani, Domenico Vitali, and Giovanni Felici. “Hacking smart machines with smarter ones: How to extract meaningful data from machine learning classifiers”. International Journal of Security and Networks (IJSN), 10(3), 2015.]
涉及到这种inference attack的还有Reza Shokri等人的关于“推断成员攻击”(membership inference attack)的研究。攻击者可以通过模型的black box access(public API)和一些数据记录信息推测出这些数据记录是否是模型训练集的一部分。Reza Shokri等人使用这种攻击利用商用分类器——谷歌和亚马逊提供的机器学习分类模型,提供的API进行了实验。构建攻击的方式是:自己训练一个inference模型,观察输入一个样本后,训练的模型和目标模型输出的区别,通过比较把训练用的数据和训练未用的数据作为模型的输入时输出的不同点,推论出一个样本数据是否时目标网络的训练数据。(这部分相当于利用了神经网络的Transferability,即是相似的分类模型具有相似的特性)。研究用在实际的数据集——hospital discharge数据集上时,证明了这个攻击的存在和可应用。
[Reza Shokri, Marco Stronati, Congzheng Song, and Vitaly Shmatikov. “Membership Inference Attacks against Machine Learning Models”. to appear in IEEE Symposium on Security and Privacy (S&P), May 2017.]
3. Model extraction attack using online APIs(也可以叫做 black box attack、API attack)
机器学习作为一种辅助服务应用已经在很多领域得到了应用,这种应用一般通过公用请求接口的形式(API),接受用户的输入,返回预测/分类结果。一般商用模型都是比较私密的,可能因为训练数据比较私密,商业价值比较大,或者应用的领域对安全性要求比较高。所以一般就算模型提供外接API,也是需要用户付费的。攻击这种模型,就意味着是black box攻击——不知道关于目标机器学习模型的参数或者训练数据的任何先验知识。然后再利用目标模型提供的API进行测试,得到模型返回的各个label以及各自对应的决策置信概率,在本地构建和在线模型比较接近的替代模型。
能提供API的机器学习在线服务(ML-as-a-service):Google, Amazon, Microsoft, 和BigML。
Florian Tramèr等人在这个方向进行了比较深入的研究。他们利用分类模型的输出的决策概率值,对常见机器学习模型进行model extraction attack。这些模型包括logistic regression, neural networks, 和decision trees。对抗攻击构建的原理为,比如对于logistic regression,输出的概率值为d维输入映射出的sigmoid函数值1/(1+e^(-(w.x+β)) )。攻击者提交d+1个d维输入的API请求,就能根据目标模型的输出概率值解出w和β一共d+1个未知量。这类似于解方程组的形式,也能拓展到多类回归问题和神经网络问题中。
[Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, and Thomas Ristenpart. “Stealing Machine Learning Models via Prediction APIs”. USENIX Security Symposium 2016. ]
另外,Papernot等人也对这种形式的黑盒攻击进行了研究,他们将Model extraction attack应用到了DNN之中——以用目标模型的输出构建一个替代模型,对这个替代模型的攻击,产生对抗样本,能对目标模型产生攻击效果。
[Nicolas Papernot, Patrick McDaniel, Ian Goodfellow, Somesh Jha, Z. Berkay Celik, and Ananthram Swami.“Practical Black-Box Attacks against Machine Learning”, ACM Asia Conference on Computer and CommunicationsSecurity (ASIACCS), April 2017.]