@wuxin1994 2017-11-20T14:49:56.000000Z 字数 1760 阅读 1735

《Delving into adversarial attacks on deep policies》论文笔记

PaperNotes Secure

citation

Kos J, Song D. Delving into adversarial attacks on deep policies[J]. 2017.

introduction

这篇文章是关于深度增强学习策略网络模型的对抗攻击研究。
主要的研究内容有：
1. 比较对抗样本和随机噪声的攻击性
2. 提出了一个基于值函数的可以提高对抗样本生成效率，减少实现一个成功的对抗攻击时需要“入侵”目标模型的次数。
3. 研究如何重新训练来增强模型对随机噪声和FGSM攻击的稳定性。

study content

这篇文章contribution和objects都是三个：
1. 比较了随机噪声和对抗样本对深度增强学习策略模型deep reinforcement learning (DRL) 的影响。发现了采用这种DRL策略的模型也容易受到对抗样本的攻击。
2. 提出了利用增强学习策略中的值函数来引导攻击者选择在原始样本中添加对抗扰动的时间。（这种构造对抗样本的方法相比于以前在图片分类等等任务中，间隔固定时间添加对抗扰动的策略更复杂一些，但是作者发现这样效率更高）
3. 通过re-training可以增强策略的稳定性。初步结果表明，通过re-training，agents可以对FGSM生成的对抗样本和随机噪音都更加稳定。同时，作者也研究了这种提高的稳定性是否会根据扰动的不同规模和不同种类而发生改变。发现这种方法并不能增强模型对其他攻击类型的防御能力。

对第二个研究目标，作者提出了三个方法来探究是否减少了添加perturbation的频率也能生成有效的对抗样本：1)每隔N步给原始样本注入一次扰动，在间隔中计算扰动但是不添加到样本中；2)每隔N步计算一次扰动，并加入到数据样本中；3)引入一个“值函数”，计算什么时候添加扰动效果最好，确保添加的时机让这个值函数处于阈值。

experimental evaluation

这部分首先是介绍两个概念，A3C算法是一个应用在深度增强学习任务中的比较成功的算法：通过策略权值的异步更新权值。
[Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy P Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In International Conference on Machine Learning, 2016.]
另一个概念是FGSM，也就是 Goodfellow等人提出的比较典型的对抗样本生成算法。
实验首先在base-line的情况下得到了一个在Atari Pong任务中训练得到的增强模型，然后设定FGSM中的对抗扰动规模超参数 $\epsilon$ ，并得到对抗样本。同时从均匀分布 $unif(0,β)$ 随机取样得到随机噪声。
实验结果上，第一个任务没有什么值得注意的。对于第二个任务，这里的N设为10，实验结果如图：
此处输入图片的描述
在 $\epsilon$ 为0.005，扰动规模一定的情况下，第一个方法生成的对抗样本效果不如每隔10步计算一次perturbation得到的样本（方法2）效果更好。
同时，用一个让值函数大于一个阈值时才加入对抗扰动的策略，如下图：
此处输入图片的描述
红色的线表示值函数的变化，这个值函数即是增强学习的反馈值。当这个函数大于一定值的时机加入对抗扰动，即是这个扰动也更加贴近模型训练时的反馈。
最终的结论是，在增强学习背景下，用基于值函数得到的对抗样本，尽管更加复杂，但是也更加高效，得到的样本对抗性更强。

conclusion

今年才开始有将对抗样本应用到增强学习领域的相关研究。相比于《Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks》，，前者是通过改变对抗样本训练策略，将对抗样本的训练和增强学习的反馈结合起来，得到更高效且效果更好的攻击样本。后者针对的策略是Deep Q-networks，并且是利用了对抗样本的transferability。