[关闭]
@songying 2018-07-05T16:10:22.000000Z 字数 592 阅读 1260

文本相似度 思路

Sentence-Similarity


参考: https://zhuanlan.zhihu.com/p/38009381

最基本的结构

对两段文本进行相似度比较之前,首先要把这两段文本各自encoding成一个压缩上下文信息的矩阵或者直接embedding成一个向量,然后通过矩阵相似度或向量相似度的计算方法得到相似程度就可以啦。显然embedding成向量后的比较更为简单,因为可以直接使用欧式距离或者余弦距离啦,但是显然这样对embedding的质量要求非常高,而且难以进行两段文本之间的细粒度的比较。直接比较encoding后的矩阵的方法听起来虽然好,但是两个矩阵之间的相似度该如何比较?细粒度的词、短语的匹配信息又该如何聚合呢?显然后一种更麻烦一些。

思路

  1. 在embedding处做文章,比如将词向量, char-level 向量组合
  2. 在向量转化处做文章,如何将句子向量矩阵转化成单一向量
  3. 评估相似度方法。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注