[关闭]
@heavysheep 2017-04-25T09:13:49.000000Z 字数 2383 阅读 951

横屏 - 票务数据文档

文档


票务信息包含两个表:格瓦拉的电影票务信息和西十区的非电影票务信息,为清晰表述,以下对两个网站的数据分别说明。

西十区 数据

概述

表位置mongoDB - eastnb - xishiqu
数据更新时间:在每日7-23点间,西十区数据每5小时爬取覆写一次
日志位置:ssh//root@192.168.161.137 root/work-space/xishiqu.log

字段解析

常规信息加上_id一般有17-18个字段,主要差别是performer字段。

字段名称 字段类型 字段释义 备注
title string 票项标题
describe string 票项描述
date string 票项起止时间 -分隔,无则为空字符串,不建议处理成整型
venue string 场馆名称 无则为空字符串
address string 场馆地址 无则为空字符串
preview string 预览图外链
lowest_price string 最低价 XXX 元起
category string 类目分类 一级分类
tag string in list 标签分类 二级分类,可能会有多个,故用列表显示
count string 西十区成交数 距离上次覆写的成交数,有需求可以处理为整型
face_value string 票面价值 无则为空字符串
performer string 表演者 无则不存在此字段
content string 正文信息 已经处理成前端文本,需要修改先来找我
href string 原网页链接 常规备查项
source string 数据来源 表内统一为西十区,方便多表混合的区分
creat_time ISODate 插入时间 第一次覆写时间,常规备查项
overwrite_time ISODate 覆写时间 上次抓爬的覆写时间

其他

1.建议以覆写时间距离本地时间是否超过18个小时以上作为数据腐烂/过期的评判标准,超过18小时意味着极端情况下爬虫至少运行了两次都没有实现覆写。
2.相关推荐的判断以category相同且tag相同作为第一优先,以有且只有category相同作为第二优先
3.数据理论上已经实现去重,如果有重复项(包括网址重复和网址不重复的内容近似项)属于BUG,来找我。
4.代码和数据没经过测试,也无法保证对方不处理爬虫或调整页面结构。各种BUG和问题欢迎来找我,尤其要注意大批量本应存在的数据多次不覆写、结构错误等情况。

格瓦拉 数据

概述

表位置mongoDB - eastnb - gewara
数据更新时间:在每日7-23点间,格瓦拉数据每3小时爬取覆写一次
日志位置:ssh//root@192.168.161.137 root/work-space/gewara.log

字段解析

注意:电影的数据板块包括正在热映即将上映两个部分

字段名称 字段类型 字段释义 备注
title string 电影名称
describe string 电影描述 无则为Null
release_date ISODate 上映时间 无则无此字段,其实字段名改为date比较合适,后端有需要我就改一下
type string in list 电影类型 无则为空列表
grade string 电影评分 格瓦拉的评分系统
want_go int 标记为想去的人次
buy_count int 购买人次
hit_count int 点击人次
collection_count int 收藏人次
mark_count int 后台评分 这个字段不要用,后续会删掉
release_condition string 上映情况
length string 电影时长 无则为空字符串
language string in list 上映语种 无则为空列表
list_preview string 列表页预览图 在列表页使用的预览图,图比较小
director string in list 导演 导演不一定一个,故使用列表
arts string in json in list 演员 {name:演员名;role:角色名;portrait:头像图外链},名气小的演员可能没有头像图外链
countries string in list 国家/地区 无则为空列表,好像是剧情内涉及到的国家和地区
distribution_companies string 出品公司 无则为空字符串
honor string 所获奖项 无则为空字符串
version string in list 上映版本 无则为空列表,IMAX 3D、巨幕这种
big_preview string 宣传大图 应用于首页banner,详情页背景等
video_preview string 宣传照大图 无则无此字段
publicity_shots string in list 剧照外链 无则无此字段,剧照小图,5-6个不等
content string 简介正文 无则无此字段
presell bool 是否在售 正在热映的不用管,即将上映的以此判断是否预售
category string 类目板块 只分为正在热映即将上映两种
href string 原网页链接 常规备查项
source string 数据来源 表内统一为格瓦拉,方便多表混合的区分
creat_time ISODate 插入时间 第一次覆写时间,常规备查项
overwrite_time ISODate 覆写时间 上次抓爬的覆写时间

其他

1.建议格瓦拉以覆写时间距离本地时间是否超过14小时以上作为各自数据腐烂/过期的评判标准,超过时限意味着极端情况下爬虫至少运行了两次都没有实现覆写。
2.西十区相关推荐的判断以category相同且tag相同作为第一优先,以有且只有category相同作为第二优先。
3.格瓦拉判断是否正在热映的标准是上映影院>=20家,低于20家不会再覆写。
4.数据理论上已经实现去重,如果有重复项(包括网址重复和网址不重复的内容近似项)属于BUG,来找我。
5.代码和数据没经过测试,也无法保证对方不处理爬虫或调整页面结构。各种BUG和问题欢迎来找我,尤其要注意大批量本应存在的数据多次不覆写、结构错误等情况。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注