[关闭]
@wuxin1994 2017-07-24T16:15:55.000000Z 字数 1447 阅读 991

吴帆0706 - Adversarial Attacks

学习笔记17


A. 在“对抗性攻击”方面的进展

1.对抗性攻击
 调研了机器学习中对抗性攻击(Adversarial Attack)。看到一篇讲的不错的博客,讲了对抗攻击影响分类器准确率的原因,并且提到了多个对抗攻击的实例。
 总结一下,随着神经网络广泛应用于图片识别、语音识别、人机交互等领域,安全问题变得越来越突出。这一方面正体现在对抗攻击对神经网络模型结果的巨大影响上。
 所谓的对抗性攻击,就是人为处理模型的输入数据,让模型的输出与人预料的输出不相符。这可以用两个角度去理解。一是攻击者处理输入数据,使其人为判断不出来与真实样本的差别,但是模型输出结果与将真实样本作为输入时相差比较大;二是攻击者处理输入数据,使其让人直观感觉和真实样本相差比较大,但是作为模型输入之后,得到的输出确实一样的。
 这种对抗性攻击对于机器学习中神经网络模型应用的安全性是一大挑战。举个例子,如果利用神经网络实现的无人汽车,把攻击者贴在墙上的一张纸识别成了真正的道路,那无人车的自动驾驶就会变得很危险。而对这个问题方面的探究也是一大热点。

2.《Towards Deep Learning Models Resistant to Adversarial Attacks》论文笔记
 这篇论文针对深度学习模型中广泛存在的对抗性攻击,提出了一种解决方法--通过robust optimization的视角来处理。也即是通过使用自然鞍点公式(最大最小问题)以原则上的方法掌握应对对抗性攻击的方法。(因为神经网络的训练过程与求极值问题一致)。


B. “新闻稿文本向量”任务进展

1.梳理了一下新闻稿json文件的结构和关系,
一篇文章主要包含的字段及数据类型如下:

2.莫凌波师兄给我讲项目的几个补充点
 1)keywords的向量表示,需要将description的信息也加入到语料库中。因此,整个向量表示的语料库由普通语料库(维基百科语料库),项目额外的语料库,将descrition分词后得到的语料库 构成。
 2)对subtitle的向量表示,将title按照类似于one-hot的表示成向量,并在一个topic中包含多个subtopic时合并这些向量。
 3)保留暂时没有意义的tid等字段。保留文章的ID字段,最终输出也是数字表示的。
 4)最终得到的每一条json只含有一个topic。即是在一篇文章有多个topic时,分成多条分别表示,每一条中的subtopic合并。
而具体的分词及合并语料库的方法师兄发给我了两个参考文档,可以直接使用相关的工具和库,刚刚看完jieba分词工具的使用方法,还没有完成这一部分的代码。

3.工程上,计划将整个程序分成三部分:
 1)读取测试文件,并对里面的数据完成清洗工作(去掉不必要的空格和标识符)。
 2)分词,添加语料库,并接收读取的word、sentence和article,返回300维向量表示的结果。
 3)main函数部分。
目前,代码刚刚写完了第一部分,明天看师兄发的文档,写剩下的代码。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注