@wuxin1994
2017-07-24T16:14:05.000000Z
字数 1125
阅读 796
学习笔记17
A: 首先是配置环境:
1) 在官网下载安装压缩包
Anaconda3-4.0.0-Linux-x86_64.sh
2) 解压安装
bash ~/Downloads/Anaconda3-4.0.0-Linux-x86_64.sh
3)安装anaconda-navigator
conda install anaconda-navigator
安装gensim
pip install --upgrade gensim
安装jieba分词工具
pip install jieba
安装opencc工具
sudo apt-get install opencc
B: 语料库的构建
维基百科语料库:
首先下载以"pages-articles.xml.bz2"结尾的文档,然后用python提取其中的维基文章,用
opencc -i wiki_texts.txt -o wike_texts_simple.txt -c zht2zhs.ini
将繁体中文转成简体中文,再用jieba对文本进行分词处理。
jieba.load_userdict('dictionary.dic')
C:根据语料库训练词向量
利用word2vec工具包训练得到的分好的词。其中参数设置按照参考文档的设置:
class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)
D:目前的问题
1.在训练词向量的过程中,只使用一个语料库时程序没有问题,但是把本次任务的自定义语料库加入一起训练时就会出现内存占用过高,从而计算机卡死的现象,还在调试中。
2.输出最终向量表示的结果部分的代码还没写。
3.莫凌波师兄提出要把topic中的tid和初始的data_test.json中的topic关联,这部分代码还要修改。