@ShawnNg 2016-11-03T13:04:09.000000Z 字数 1076 阅读 2282

Extensions of Recurrent Neural Network Language Model

深度学习 RNN

作者

T Mikolov,S Kombrink,L Burget,JH Cernocky,S Khudanpur

单位

Brno University of Technology(布尔诺科技大学)

关键词

language modeling, recurrent neural networks, speech recognition

文章来源

ICASSP 2011 (http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=5947611)

问题

对【Recurrent neural network based language model】中提出的模型进行改进。使用变种的BP算法使模型隐藏层记住信息。如何降低计算复杂度和减少参数数量。

模型

1 改进训练算法

简单的BP算法不能保证隐藏层能学习到历史信息，而使用BPTT(Backpropagation through time)算法可以学习到历史信息。BPTT的详细解释可以参考【A Guide to Recurerent Neural Networks and Backpropagation】。训练多个网络并进行等权插值可以获得更好的表现。

2 降低模型复杂度

原模型的训练计算瓶颈在隐藏层H和输出层Y之间，Y的长度是词表长度V。

为了减少Y的长度，可以将输出层做因式分解：

$P(w_i\mid \text{history})=P(c_i\mid s(t))P(w_i\mid c_i,s(t))$ 将每个词按照frequency排序，等份切分成多个类别。预测下一个词的概率可以因式分解为分类的概率 $y(t)=P(c_i\mid s(t))$ 和词在类中的概率 $c(t)=P(w_i\mid c_i,s(t))$ ，这样就可以减少输出的节点。
模型结构图：
为了减少参数数量，在隐藏层和输出层之间添加一层压缩层，压缩层的节点数较少，使用sigmoid激活函数，相当于加深网络，减少参数。

资源

数据集
宾州树库 http://www.cis.upenn.edu/~treebank/
开源代码
RNNLM的训练工具 http://www.fit.vutbr.cz/~imikolov/rnnlm/

简评

这篇文章只是对原有的RNNLM模型进行了一些改进，提高模型表现，并且简化模型。虽然模型较为简单，但是从计算复杂度开始分析模型平静下来，从而改进模型的思路还是值得我们学习的。文章中也提到把多个RNN模型等权插值的方法，这种简单的方法也许能够提高我们的模型表现，也值得一学。

Extensions of Recurrent Neural Network Language Model

作者

单位

关键词

文章来源

问题

模型

1 改进训练算法

2 降低模型复杂度

资源

简评

内容目录