@ShawnNg 2016-12-15T07:45:47.000000Z 字数 1019 阅读 3264

End-To-End Memory Networks

深度学习 QA

End-To-End Memory Networks

一、文章信息

作者

Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus

单位

Facebook AI Research

文章来源

NIPS 2015

二、文章内容

1. 解决问题

文中提出一个连续形式的Memory Network(文中称为MemN2N)，使原来的Memory Network可以端到端训练，并且可以使用更少的监督来学习模型，比如QA问题中的weak supervision。

2.模型

模型的输入是一段上下文 $x_1,\dot,x_n$ 和一个问题 $q$ ，输出是一个答案 $a$ 。

2.1 单层模型

单层模型中可以分成三个部分

Input Memeory representation
从词向量矩阵A中得到 $\{x_i\}$ 的词向量 $\{m_i\}$ ，从矩阵B中得到 $q$ 的词向量 $u$ 。计算：

$p_i = \text{Softmax}(u^Tm_i)$
Output memory representation
这里相当于使用了Attention。从词向量矩阵C中得到 $\{x_i\}$ 的词向量 $\{c_i\}$ 。计算：

$o = \sum_i p_ic_i$

3.Generating the final prediction
使用o和u来计算答案a：

$\hat{a} = \text{Softmax}(W(o+u))$

下图直观地表现了单层模型

2.2 多层模型

多层模型就是有多层的memory层，文中将memory层称为hop，将u和o多层迭代： $u^{k+1} = u^k + o^k$ 。每一层都有自己的 $A^k$ 和 $C^k$ ，答案的预测只需要最后一层的u和o来计算： $\hat{a}=\text{Softmax}(W(o^k+u^k))$ 。

下图展示的是一个三层memory network：

2.3 Trick

文中还提到两个权重捆绑(weight tying)的trick，可以减少模型的复杂度。

3 相关工作

RNNs or LSTM-based models
Neural Turing Machine

三、简评

该文提出的MemN2N是对原来的MemNN作出的改进，使得训练可以端到端是一个重要的亮点。在弱监督学习下也能取得较好的结果，但还是比不上强监督学习的MemNN，是探索Memory路途上一的一篇好文章。