@songying 2019-06-16T08:53:25.000000Z 字数 6450 阅读 1161

听说你急缺论文大礼包？（更新ing）

博客文章

前言

前些日子刷知乎的时候，刷到一个研究生提到，其在开学之初，老师给了他一份礼物： 论文大礼包。emmm，瞬间觉得自己好惨，我整个研究生涯完全是放养，自己摸索过来的，不要说论文大礼包，老师都没见过几次，哎，说多了都是泪。

考虑到，我国研究生现状，估计很多人都无法遇到很合意的老师，更不要说论文大礼包了，于是，我决定，将我整个一年多来看过的，觉得值得一看的论文总结一下，给各位还在挣扎在NLP门口的各位同学一些参考。

先来谈谈学习建议

从我的学习道路来看，中间的确走了很多弯路，下面我来细数一下。

机器学习：不要花太多精力

前期花在机器学习上的时间也不算少，反反复复也滤了差不多三遍，但是，记忆丢失太快，很多东西随着时间流逝就只剩下概念和思想了，一些细节实在想不起来。对此，我的建议是，对于 NLPer 来说，机器学习算法有一定的地位，但是重点不要放在那里，因为你用到的并不多，遗忘的速度要比记忆的速度快得多。

Pytorch 完胜 TensorFlow

Pytorch 对于研究者来说，其易用性要比 TensorFlow 强十倍不止，我当初上手 TensorFlow 用了半个多月，而Pytorch，只用了半天。TensorFlow 太过复杂， API 太多，往往让你不知所措，强烈建议使用 Pytorch。

文本分类 vs 阅读理解

对于初学者来说，最初选择一个相对简单的方向是最佳的，文本分类就是一个很好的选择，不仅仅是因为其简单，更是因为其在工业界也是用的最多的。

想当初，我直接上手 阅读理解，阅读理解是一个很棒的方向，但模型实在太复杂了，对于初学者来说相当不友好，如果你还使用TensorFlow，恭喜你，入门看 Paper 就得至少俩月，那段时间真的是欲生欲死。（没错，我看的第一篇Paper 就是 BiDAF，那个时候我连 Word Embedding 还没搞清楚，结果就被虐的很惨）。

对于文本分类，可以看看我之前的文章：几个可作为Baseline的文本分类模型，从这篇文章中涉及到的东西延伸，一个月就足以完全摸透文本分类领域了，此时你就算真的入门了。顺便推荐一下我的仓库：TextClassification-Pytorch

代码和 Paper 同等重要

这个就不多说了，如果你非说，我是搞理论的，麻烦出门右转。实现一些经典的 Paper 对自己是很有帮助的。

不要随随便便答应你的学姐学长

有时候，你的学姐学长会想让你帮他实现一下论文或其他，请仔细考虑，如果你的师姐，师兄很厉害（代码牛逼或论文顶会），那你当然屁颠屁颠的帮忙去写，而大多数情况是，你的师兄师姐，不强，潜台词我就不说了，不要轻易浪费你的时间，学会拒绝。

如果可以，早点出去实习

现在很多公司的资源要比实验室丰富的多，大牛也多，早点实习开阔眼界，我现在就挺后悔自己当初懵懂无知，匆匆少年。

入门资源

我一直认为少而精才是正道，因此，我在这里只推荐三个资源，你看完，完全足够入门了：

机器学习：六维上有七月在线的课程，讲的很清晰，过一遍，有个概念就好
深度学习：吴恩达老师的课程还是很推荐的：吴恩达-深度学习
深度学习进阶：李宏毅老师的课程十分推荐，够深，不过需要翻墙：李宏毅课程，哔哩哔哩上应该也有人上传，可以找一找。
Pytorch：pytorch-tutorial pytorch-beginner code-of-learn-deep-learning-with-pytorch TextClassification-Pytorch

这三个课程大概一个多月就足够了，看完之后，你对深度学习有一个大致的了解，这个时候，你就可以看 Paper 了。

## Paper 入门精选

这里的文章只选择了一些通用领域的，对于一些专用领域如对话，多任务学习，建议看对应的综述性文章。

入门必看：

2018自然处理研究研究报告：这篇报告囊括了几乎全部的NLP任务，缺点是，不够前沿，涉及到的深度学习的内容并不多，但十分值得一看。
```
链接：https://pan.baidu.com/s/1Rwp84EddnaVxKULxs_RzSg 
提取码：faws 
```
刘知远老师维护的仓库：主要讲述入门NLP领域时的诸多事项，主要偏向学术，强烈推荐。
```
https://github.com/zibuyu/research_tao
```

大神综述

Deep learning （这是一篇论文，不是花书 )

基本神经单元

首先，推荐张俊林大佬的一篇博客，这篇文章对比了 CNN, RNN, Transformer：

放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

对于这些基本单元，有一篇中文Paper 讲的很详细，虽然没啥创新点：《深度学习研究综述》，推荐一看

一个入门的资料：零基础入门深度学习，不过这些只要你好好看了吴恩达的课程和李宏毅老师的课程，这些基本不是问题。

关于 RNN，主要是 LSTM 与 GRU 原理及二者之间的比较，看博客足够了：

关于CNN，我个人没有看过早期的Paper，诸如 VGGNet， GoogleNet 等，如果感兴趣，你可以全都看看，我只看了最近的几篇文章如ResNet，DenseNet等。

LeNet：Gradient-Based Learning Applied to Document Recognition （不推荐看）
AlexNet： ImageNet Classification with Deep Convolutional Neural Networks（不推荐看）
VGGNet：Very Deep Convolutional NetWorks for Large-Scale Image Recognition (不推荐看)
GoogleNet：Going Deeper with Convolutions （可不看）
ResNet：Deep Residual Learning for Image Recognition （必看）
DenseNet：Densely Connected Convolutional Networks

上述之所以不推荐看的原因在于很多文章其实对于NLP领域用处不大，且 ResNet 的诞生基本上是打开了一个新天地，但有时间可以看看，万一有啥新灵感呢。

其余的一些 cnn 变体大多是用于图像领域，这里就不深入了，我也不会，，，

语言模型

A Neural Probabilistic Language Model （经典，必看）
Efficient estimation of word representations in vector space （可不看，主要讲解 Word2Vec 中 CBOW， Skip-Gram 模型）
Distributed Representations of Words and Phrases and their Compositionality （可不看，主要介绍Word2Vec中的几个优化Trick）
我早期的一篇文章：语言模型：从n元模型到NNLM （其实早期的文章是写在自己的网站下的，后来，懒得充钱了，就迁移过来了，可以看出写作手法很稚嫩，毕竟是一年多以前的文章了）

其实语言模型的经典文章有很多，但是，考虑到，语言模型本身的研究价值在逐渐向预训练模型转移，且如今情况下，预训练语言模型已经是土豪们玩的游戏，我等乞丐实验室还是早早避开，对大多数人来说，研究的价值有限。

如果你想研究预训练语言模型，那么语言模型的经典文章依旧有很强的研究价值，前提是，你有足够的资源，而绝大多数实验室和公司并没有。

词向量

调参相关

调参是一个经验和很耗时间的工作，因此这些论文大多都是给出建议，具体的还是要看你实际应用。

优化算法

An overview of gradient descent optimization （必看）

一些最近的优化算法，目前还没有人大规模使用，需要经过时间的检验，目前用的最多的依旧是文章中提到的几种算法，足够你掌握了。

Dropout

Dropout ：A Simple Way to Prevent Neural Networks from Overfitting

激活函数

Comparing Deep Learning Activation Functions Across NLP tasks
Comparison of non-linear activation functions for deep neural networks on MNIST classification task

权重初始化

Xiver 初始化： Understanding the Difficult of Training Deep Feedforward Neural Networks
He 初始化：Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classfication

层连接

ResNet ： Deep Residual Learning for Image Recognition （必看）
DenseNet： Densely Connected Convolutional Networks （必看）
Highway Networks （必看）

这三篇文章涉及到的思想都很棒，有相关之处，都值得一看。

Normalization

Batch Normalization：Batch normalization ： Accelerating deep network training by reducing internal covariate shift （必看）
How Does Batch Normalization Help Optimization （必看）

其余的一些 Normalization，可以等到研究的时候看，目前 NLP 中用到的并不多，主要是目前网络并不深。

Tricks

Neural Networks: Tricks of the Trade ：这本书比较老了，2012年的，但很多 Trick 目前还在使用，可以看看，知道都有啥玩意就行，有的Trick 毕竟已经被淘汰了。

最后

上述的所有 Paper 都更偏向于基础研究，对于上层应用如文本分类，阅读理解，机器翻译等因为涉及到的文章实在太多，这里就不列举了，感兴趣的话，后期可以分别出专题来讨论。

其实还有很多文章没有推荐，一方面是考虑到这是倾向于对于入门NLPer的文章，不应该大规模的文章轰炸，另一方面，其余的一些文章更多的是基于上述文章的一些改进或者是一些Trick，重要性相对低一些。可以等大家入门之后，在自行专研讨论。

写这么多，真的好累，好废时间，大家觉得写的凑合，就点个赞再走吧。

听说你急缺论文大礼包？（更新ing）

前言

先来谈谈学习建议

入门资源

调参相关

最后

内容目录