[关闭]
@songying 2018-07-05T13:30:38.000000Z 字数 1125 阅读 1076

End-to-End Memory Networks

memory-networks


参考博客: https://zhuanlan.zhihu.com/p/29679742
参考源码: https://github.com/carpedm20/MemN2N-tensorflow

Abstract

数据集: Penn TreeBank, Text8
我们的模型在这两个数据集上取得的效果与RNN和LSTM接近。

Introduction

Approach

, q, a 均由V个单词的词典构成

single Layer

从上图可以看出,对于输入的句子s分别会使用A和C进行编码得到Input和Output的记忆模块,Input用来跟Question编码得到的向量相乘得到每句话跟q的相关性,Output则与该相关性进行加权求和得到输出向量。然后再加上q并传入最终的输出层。

模型主要参数包括四个矩阵:A, B, c, w .

  • A, B, C三个矩阵是embedding矩阵(d × V) ,用于将输入文本, question编码成词向量。
  • W是最终的输出矩阵

Multiple Layers

参数选择

对于模型中的参数选择, 论文提出了两种方法(主要是为了减少参数量,如果每层参数都不同的话会导致参数很多难以训练)。
1. Adjacent: , 以及 : ,
2. Layer-wise(RNN-like): 与rnn类似选用完全共享参数的方法: , 以及 .由于这样会大大的减少参数量导致模型效果变差,所以提出一种改进方法, 令 .

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注