[关闭]
@EggGump 2018-09-16T21:43:36.000000Z 字数 614 阅读 561

GloVe原理

NLP


几个数学表示介绍(应该先看下面的共现矩阵)

:词j在词i的上下文中出现的次数
:词i的总现现次数
条件概率,词i的条件下,词j出现的概率
两个条件概率的比,这个值是有规律的,如下
iZSAF1.png

图1

共现矩阵统计

这里我拷贝一下别人的例子来说明
i love you but you love him i am sad

这个小小的语料库只有1个句子,涉及到7个单词:i、love、you、but、him、am、sad。
如果我们采用一个窗口宽度为5(左右长度都为2)的统计窗口,那么就有以下窗口内容:
iZSeSK.png

图2

iZSmQO.md.png


损失函数


解释:是词i,j的词向量,是两个偏差标量,即偏差项,f是权重函数,N是词表大小(这里共现矩阵维度为N*N),这里完全不涉及神经网络


还记得图一那个规律吗?这个损失函数就是为了使词向量尽量满足图一规律,作者一钝猛推导得来的,具体过程怒在下愚钝,不在此列出了。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注