@ShawnNg 2016-11-03T13:04:02.000000Z 字数 937 阅读 2414

Recurrent neural network based language model

深度学习 RNN

作者

Tomas Mikolov,Martin Karafiat,Lukas Burget Jan Honza Cernocky, Sanjeev Khudanpur

单位

Brno University of Technology(布尔诺科技大学)

关键词

language modeling, recurrent neural networks, speech recognition

文章来源

Interspeech 2010 (http://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf)

问题

提出一种新的基于Recurrent Neuarl Networks的语言模型(RNN LM)

模型

建模

使用最简单的RNN模型，用context来预测下一个目标词。
网络有三层，输入层 $x$ ，隐藏层 $s$ （context layer），输出层 $y$ 。在时刻t的输入为 $x(t)$ ，隐藏层输出为 $s(t)$ ，输出层输出 $y(t)$ 。输入是当前词（one-hot编码，词表长度V）和t-1时刻的隐藏层输出s(t-1)的联合，输出是词表长度的预测词概率。

$x(t)=w(t)+s(t-1)\\ s_j(t) = f\left(\sum_i x_i(t)u_{ji}\right)\\ y_k(t) = g\left(\sum_i s_i(t)v_{kj}\right)\\$ 其中 $f(z)$ 是sigmoid函数， $g(z_m)$ 是softmax函数。
训练
代价函数为log-likelihood，使用SGD进行训练，开始学习率 $\alpha=0.1$ ，每次训练完一个epoch，就用验证集验证，如果效果不提高就将学习率取半，如果效果还是不提高就停止训练。

简评

Bengio的FNN语言模型输入的是定长的context信息，而RNN的context信息是可变长的，所以效果也显著提升。即使RNN的训练语料较少，但是也能得到比baseline更好的结果。并且该模型可以online-learning，成为一个动态模型。但是本文中模型训练时间相当可观，但是作者后续的文章又对模型进行改进。

Recurrent neural network based language model

作者

单位

关键词

文章来源

问题

模型

简评

内容目录