@songying 2018-10-06T08:15:43.000000Z 字数 1144 阅读 1481

Recurrent neural network based language model

language-models

我们来详细讲解一下上面这个模型，在此之前，你需要阅读一下RNN相关:深度学习之循环神经网络：RNN结构剖析

对于输入层而言，我们输入的是我们的word如："the", "students", "opened", "their"，其中这些word都是使用one-hot编码来表示
对于隐层第一层，我们是将我们的词转化为对应的词向量，其中E其实就是一个字典矩阵，它的每一列表示一个word的词向量，而输入层的one-hot编码表示的是该word对应词向量的位置，二者相乘就得到该word所对应词向量。
在隐层第二层，就是一个典型的RNN模型（N VS 1）
输出层采用softmax来获取"the students opened their"之后的word的概率

ABSTRACT

本文主要讲RNNLM，即将RNN引入到神经网络语言模型中，用RNN对历史信息的存储代替以n为窗口的上下文。
在RNNLM中，讲模型中的隐藏层作为状态存储单元，以当前单词的词嵌入和上一状态的叠加作为输入，输出对下一个单词的预测。

Bengio 论文中的一个重大缺陷是前馈神经网络必须使用固定长度的上下文，这也以为着当预测下一个词时，只能see 5-10 个之前的单词。这也是为什么尝试使用RNN的原因，因为RNN没有上下文长度的限制。

其中， f(z)是sigmoid 激活函数：

$f(z) = \frac{1}{1 + e^{-z}}$
g(z) 是softmax函数：

$g(z_m) = \frac{e^{z_m}}{\sum_k e^{e^{z_k}}}$

对于初始化， s(0)可以设置为一个很小值组成的向量比如0.1，当处理大规模数据时，初始化并不是必须的。隐层单元数量大概为30-500个，在我们的实验中，隐层单元数应该受到training data的影响。对于大规模数据来说，大量的隐层单元数是需要的。

权重的初始化为较小的值，在训练中，我们使用反向传播 + 随机梯度下降算法。初始的学习率设为0.1.

为了提高performance，我们将低频词转化为一个token