@songying
2019-04-19T00:37:42.000000Z
字数 1192
阅读 1938
NLP
https://github.com/Jarvx/text-classification-pytorch
https://zhuanlan.zhihu.com/p/31139113
https://zhuanlan.zhihu.com/p/37223078
| 组件 | 说明 |
|---|---|
| Dataset | 用于加载数据,继承自Pytorch 的 torch.utils.data.Dataset |
| Field | 数据预处理相关配置 |
| Iterator | 数据输出至model的迭代器 |
| Pipeline | 管道 |
该模块下包含一些常用数据集的dataset, 这些dataset都继承于 torchtext.data.Dataset,
| Dataset | 说明 |
|---|---|
| SST | 情感分类数据集 |
| IMDB | 情感分类数据集 |
| TREC | 问题分类数据集 |
| 参数 | 说明 |
|---|---|
| sequential | 是否把数据表示成序列,如果是False, 不能使用分词 默认值: True |
| use_vocab | 是否使用词典对象. 如果是False 数据的类型必须已经是数值类型. 默认值: True |
| init_token | 每一条数据的起始字符 默认值: None |
| eos_token | 每条数据的结尾字符 默认值: None |
| fix_length | 修改每条数据的长度为该值,不够的用pad_token补全. 默认值: None |
| tensor_type | 把数据转换成的tensor类型 默认值: torch.LongTensor |
| preprocessing | 在分词之后和数值化之前使用的管道 默认值: None. |
| postprocessing | 数值化之后和转化成tensor之前使用的管道默认值: None |
| lower | 是否把数据转化为小写 默认值: False |
| tokenize | 分词函数. 默认值: str.split |
| include_lengths | 是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False. |
| batch_first | Whether to produce tensors with the batch dimension first. 默认值: False |
| pad_token | 用于补全的字符. 默认值: "" |
| unk_token | 不存在词典里的字符. 默认值: "" |
| pad_first | 是否补全第一个字符. 默认值: False |
| 参数 | 说明 |
|---|---|
| dataset | 加载的数据集 |
| batch_size | Batch 大小 |
| batch_size_fn | 产生动态的batch大小 的函数 |
| sort_key | 排序的key |
| train | 是否是一个训练集 |
| repeat | 是否在不同epoch中重复迭代 |
| shuffle | 是否打乱数据 |
| sort | 是否对数据进行排序 |
| sort_within_batch | batch内部是否排序 |
| device | 建立batch的设备 -1:CPU ;0,1 ...:对应的GPU |
