@heavysheep
2017-04-25T09:13:49.000000Z
字数 2383
阅读 951
文档
票务信息包含两个表:格瓦拉的电影票务信息和西十区的非电影票务信息,为清晰表述,以下对两个网站的数据分别说明。
表位置:mongoDB
- eastnb
- xishiqu
数据更新时间:在每日7-23点间,西十区数据每5小时爬取覆写一次
日志位置:ssh//root@192.168.161.137 root/work-space/xishiqu.log
常规信息加上_id一般有17-18个字段,主要差别是performer
字段。
字段名称 | 字段类型 | 字段释义 | 备注 |
---|---|---|---|
title | string | 票项标题 | |
describe | string | 票项描述 | |
date | string | 票项起止时间 | 以- 分隔,无则为空字符串,不建议处理成整型 |
venue | string | 场馆名称 | 无则为空字符串 |
address | string | 场馆地址 | 无则为空字符串 |
preview | string | 预览图外链 | |
lowest_price | string | 最低价 | XXX 元起 |
category | string | 类目分类 | 一级分类 |
tag | string in list | 标签分类 | 二级分类,可能会有多个,故用列表显示 |
count | string | 西十区成交数 | 距离上次覆写的成交数,有需求可以处理为整型 |
face_value | string | 票面价值 | 无则为空字符串 |
performer | string | 表演者 | 无则不存在此字段 |
content | string | 正文信息 | 已经处理成前端文本,需要修改先来找我 |
href | string | 原网页链接 | 常规备查项 |
source | string | 数据来源 | 表内统一为西十区 ,方便多表混合的区分 |
creat_time | ISODate | 插入时间 | 第一次覆写时间,常规备查项 |
overwrite_time | ISODate | 覆写时间 | 上次抓爬的覆写时间 |
1.建议以覆写时间距离本地时间是否超过18个小时以上作为数据腐烂/过期的评判标准,超过18小时意味着极端情况下爬虫至少运行了两次都没有实现覆写。
2.相关推荐的判断以category
相同且tag
相同作为第一优先,以有且只有category
相同作为第二优先
3.数据理论上已经实现去重,如果有重复项(包括网址重复和网址不重复的内容近似项)属于BUG,来找我。
4.代码和数据没经过测试,也无法保证对方不处理爬虫或调整页面结构。各种BUG和问题欢迎来找我,尤其要注意大批量本应存在的数据多次不覆写、结构错误等情况。
表位置:mongoDB
- eastnb
- gewara
数据更新时间:在每日7-23点间,格瓦拉数据每3小时爬取覆写一次
日志位置:ssh//root@192.168.161.137 root/work-space/gewara.log
注意:电影的数据板块包括正在热映
和即将上映
两个部分
字段名称 | 字段类型 | 字段释义 | 备注 |
---|---|---|---|
title | string | 电影名称 | |
describe | string | 电影描述 | 无则为Null |
release_date | ISODate | 上映时间 | 无则无此字段,其实字段名改为date比较合适,后端有需要我就改一下 |
type | string in list | 电影类型 | 无则为空列表 |
grade | string | 电影评分 | 格瓦拉的评分系统 |
want_go | int | 标记为想去的人次 | |
buy_count | int | 购买人次 | |
hit_count | int | 点击人次 | |
collection_count | int | 收藏人次 | |
mark_count | int | 后台评分 | 这个字段不要用,后续会删掉 |
release_condition | string | 上映情况 | |
length | string | 电影时长 | 无则为空字符串 |
language | string in list | 上映语种 | 无则为空列表 |
list_preview | string | 列表页预览图 | 在列表页使用的预览图,图比较小 |
director | string in list | 导演 | 导演不一定一个,故使用列表 |
arts | string in json in list | 演员 | {name:演员名;role:角色名;portrait:头像图外链},名气小的演员可能没有头像图外链 |
countries | string in list | 国家/地区 | 无则为空列表,好像是剧情内涉及到的国家和地区 |
distribution_companies | string | 出品公司 | 无则为空字符串 |
honor | string | 所获奖项 | 无则为空字符串 |
version | string in list | 上映版本 | 无则为空列表,IMAX 3D、巨幕这种 |
big_preview | string | 宣传大图 | 应用于首页banner,详情页背景等 |
video_preview | string | 宣传照大图 | 无则无此字段 |
publicity_shots | string in list | 剧照外链 | 无则无此字段,剧照小图,5-6个不等 |
content | string | 简介正文 | 无则无此字段 |
presell | bool | 是否在售 | 正在热映的不用管,即将上映的以此判断是否预售 |
category | string | 类目板块 | 只分为正在热映 或即将上映 两种 |
href | string | 原网页链接 | 常规备查项 |
source | string | 数据来源 | 表内统一为格瓦拉 ,方便多表混合的区分 |
creat_time | ISODate | 插入时间 | 第一次覆写时间,常规备查项 |
overwrite_time | ISODate | 覆写时间 | 上次抓爬的覆写时间 |
1.建议格瓦拉以覆写时间距离本地时间是否超过14小时以上作为各自数据腐烂/过期的评判标准,超过时限意味着极端情况下爬虫至少运行了两次都没有实现覆写。
2.西十区相关推荐的判断以category
相同且tag
相同作为第一优先,以有且只有category
相同作为第二优先。
3.格瓦拉判断是否正在热映的标准是上映影院>=20家,低于20家不会再覆写。
4.数据理论上已经实现去重,如果有重复项(包括网址重复和网址不重复的内容近似项)属于BUG,来找我。
5.代码和数据没经过测试,也无法保证对方不处理爬虫或调整页面结构。各种BUG和问题欢迎来找我,尤其要注意大批量本应存在的数据多次不覆写、结构错误等情况。