[关闭]
@songying 2018-08-01T10:15:43.000000Z 字数 2352 阅读 2454

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

文本分类


Abstract

任务: Relationclassification
本文提出了 Attention-Based Bidirectional Long Short-Term Memory Networks(Att-BLSTM),用来获取一句话中的重要信息。 该模型在SemEval-2010 relation 分类任务上去的很好的结果。

Introduction

该paper的贡献在于使用BLSTM with attention mechanismwhich, which can automatically focus on the words that have decisive effect on classification, to capture the most important semantic information in a sentence, without using extra knowledge and NLP systems.

Model

如上图,该模型包含以下5个部分:
1. Input layer: input sentence to this model;
2. Embedding layer: map each word into a low dimension vector;
3. LSTM layer: utilize BLSTM to get high level features from step (2);
4. Attention layer: produce a weight vector, and merge word-level features from each time step intoasentence-level feature vector, by multiplying the weight vector;
5. Output layer: the sentence-level feature vector is finally used for relation classification.

Word Embedding

给定句子 , 其中每个单词 被转化为词向量

对于每个x, 我们使用词向量表 ,其中, V是一个固定的词表, 表示词向量的维度,矩阵 是需要学习的参数。

最终我们得到了句子的词向量表示:

Bidirectional Network

本文使用的LSTM是《. Speech recognition with deep recurrent neural networks》

具体参见LSTM

在本文中,我们使用双向LSTM, 于是得到:

Attention

在本节中,我们提出了一种注意力机制。

来表示LSTM层的输出,那么句子最终的表示 由以下得出:

其中,是词向量的维度, 是需要训练的参数, 的维度分别是 .

我们最终获得了句子的最终表示:

Classifying

在本层中,我们使用softmax来获取最终的分类:

损失函数采用negative log-likelihood:

其中, 是 one-hot represented ground truth, 是 the estimated probability for each class by softmax (m is the number of target classes), is an L2 regularization hyperparameter.

在本文中我们使用L2正则化与dropout正则化来减轻过拟合。

Regularization

We employ dropout on the embedding layer, LSTM layer and the penultimate layer.

We additionally constrain L2-norms of the weight vectors by rescaling w to have ,whenever after a gradient descent step, as shown in equation 15.

Experiments

数据集: SemEval-2010 Task 8 dataset

如果自己设置的时候需要仔细看

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注