@songying
2019-03-29T11:37:58.000000Z
字数 766
阅读 926
RACE Models
NLP
1. Standford Attentive Reader
- 首先采用双向GRU来对 article 和 question 分别编码得到
- 然后采用 Attention 模型来计算article 中词的相关度来得到 article的最后表示:
- 同样,我们采用双向 GRU 来对四个选项进行编码得到四个向量:
- 实现细节: vocabulary size = 50k, embedding size = 100, 选用Glove; GRU的权重初始化为 高斯分布:N(0,0.1); 其余参数初始化为 均匀分布 (-0.01, 0.01); 隐层的维度为128,层数为1; 优化算法为 SGD; 在 word embedding 上采用 dropout; 当梯度大于10时, 进行裁剪; 学习率的选择采用网格搜索:[0.05, 0.1, 0.3, 0.5]; dropout 的选择也采用网格搜索:[0.2, 0.5, 0.7]
Gated Attention Reader
Bert
Batch size = 4
middle_eval_accuracy = 0.7151810584958217
middle_eval_loss = 0.9222740861366718
overall_eval_accuracy = 0.6584920956627482
overall_eval_loss = 1.1212391934479848
high_eval_accuracy = 0.6352201257861635
high_eval_loss = 1.2028717346191407