[关闭]
@songying 2018-11-23T14:14:30.000000Z 字数 187 阅读 1142

文本数据预处理过程

deep-learning


常用库

  1. spacy
  2. tqdm
  3. collection.

第一步: 分词,分char

首先采用spacy对数据进行分词,甚至分char, 然后将分好的词,char 存入Counter对象中。

第二步:word 转化为 id

将word 与 数字对应,生成一个字典,最好按照频率排序。

第三步: 将数据中的word转化为数字

第四步: 将数据写入到TFrecords文件中

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注