@wuxin1994 2017-07-24T08:14:05.000000Z 字数 1125 阅读 902

吴帆0708-项目开展

学习笔记17

“新闻稿文本向量”任务进展

A: 首先是配置环境：

安装Anacondo

1）在官网下载安装压缩包

Anaconda3-4.0.0-Linux-x86_64.sh

2) 解压安装

bash ~/Downloads/Anaconda3-4.0.0-Linux-x86_64.sh

3）安装anaconda-navigator

conda install anaconda-navigator

安装gensim

pip install --upgrade gensim
安装jieba分词工具

pip install jieba
安装opencc工具

sudo apt-get install opencc

B: 语料库的构建

维基百科语料库：
首先下载以"pages-articles.xml.bz2"结尾的文档，然后用python提取其中的维基文章,用

opencc -i wiki_texts.txt -o wike_texts_simple.txt -c zht2zhs.ini

将繁体中文转成简体中文，再用jieba对文本进行分词处理。
dictionary.dic语料库：
这个是现成的语料库，直接导入。

jieba.load_userdict('dictionary.dic')

根据topic关键词的description分词得到语料库：
先读取topic.json文件中的description字段，然后把这些字段用jieba工具分词处理，然后将分词结果作为第三个语料库。

C:根据语料库训练词向量
利用word2vec工具包训练得到的分好的词。其中参数设置按照参考文档的设置:

class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

D:目前的问题
1.在训练词向量的过程中，只使用一个语料库时程序没有问题，但是把本次任务的自定义语料库加入一起训练时就会出现内存占用过高，从而计算机卡死的现象，还在调试中。
2.输出最终向量表示的结果部分的代码还没写。
3.莫凌波师兄提出要把topic中的tid和初始的data_test.json中的topic关联，这部分代码还要修改。

吴帆0708-项目开展

“新闻稿文本向量”任务进展

内容目录