@songying
2018-07-05T16:10:22.000000Z
字数 592
阅读 1260
Sentence-Similarity
参考: https://zhuanlan.zhihu.com/p/38009381
对两段文本进行相似度比较之前,首先要把这两段文本各自encoding成一个压缩上下文信息的矩阵或者直接embedding成一个向量,然后通过矩阵相似度或向量相似度的计算方法得到相似程度就可以啦。显然embedding成向量后的比较更为简单,因为可以直接使用欧式距离或者余弦距离啦,但是显然这样对embedding的质量要求非常高,而且难以进行两段文本之间的细粒度的比较。直接比较encoding后的矩阵的方法听起来虽然好,但是两个矩阵之间的相似度该如何比较?细粒度的词、短语的匹配信息又该如何聚合呢?显然后一种更麻烦一些。