@songying 2018-07-05T08:10:22.000000Z 字数 592 阅读 1792

文本相似度思路

Sentence-Similarity

参考： https://zhuanlan.zhihu.com/p/38009381

最基本的结构

对两段文本进行相似度比较之前，首先要把这两段文本各自encoding成一个压缩上下文信息的矩阵或者直接embedding成一个向量，然后通过矩阵相似度或向量相似度的计算方法得到相似程度就可以啦。显然embedding成向量后的比较更为简单，因为可以直接使用欧式距离或者余弦距离啦，但是显然这样对embedding的质量要求非常高，而且难以进行两段文本之间的细粒度的比较。直接比较encoding后的矩阵的方法听起来虽然好，但是两个矩阵之间的相似度该如何比较？细粒度的词、短语的匹配信息又该如何聚合呢？显然后一种更麻烦一些。

一方面要提高word-level embedding的质量和领域相关的词汇召回率，
另一方面要将关注点放在捕捉syntactic level和semantic level的知识上，可以直接做POS、SRL等相关特性，要么就在大数据集上引导模型学习相关知识。
而在花式attention方面，推荐大家去关注机器阅读理解领域的前沿模型，
在相似度计算方面，推荐大家关注检索式QA相关的前沿。

思路

在embedding处做文章，比如将词向量， char-level 向量组合
在向量转化处做文章，如何将句子向量矩阵转化成单一向量
评估相似度方法。

文本相似度 思路

最基本的结构

思路

内容目录

选择主题

文本相似度思路