@zqbinggong
2018-05-26T18:28:18.000000Z
字数 659
阅读 1059
RNN
《tensorflow实战》
Word2Vec
- 将语言中的字词转化成计算机可以理解的稠密向量(dense vector),进而可以做其他NLP任务,比如文本分类、词性标注、机器翻译等
- 使用向量表达(vector representation)可以解决one-hot encoder存在问题:
- 对特征的编码往往是随机的,因而无法提供任何关联信息
- 讲字词存储为洗漱向量,通常需要更多的数据来进行训练,因为稀疏数据训练的效率比较低,计算也非常麻烦
- 向量空间模型(vector space model)可以将字词转化成连续值(相较于one-hot)的向量表达,并且其中意思相近的词被映射到向量空间中相近的位置;向量空间模型在NLP中主要以来于Distribution Hypothesis,即在相同语境中出现的词其语义也相近
- 计数模型, 统计在语料库中,相邻出现的词的频率,再把这些计数统计转为小而稠密的矩阵
- 预测模型, 根据一个词周围相邻的词推测出这个词,以及它的空间向量
- word2vec是一种计算效率非常高的,可以从原始语料中学习字词空间向量的预测模型,主要分为两种模式:
- CBOW(continuous bag of words),从原始语句推测目标字词,适合于小型数据
- skip-gram, 从目标字词推测出原始语句,在大型语料中表现较好
- NCE loss, Noise-Contrastive Estimation
LSTM
Bi-RNN
- 目标是增加RNN可利用的信息,可以同时使用时序数据中某个输入历史及未来数据
- 实现原理,将时序相反的两个循环神经网络连接到同一个输出