@heavysheep 2017-04-25T01:13:49.000000Z 字数 2383 阅读 1200

横屏 - 票务数据文档

文档

票务信息包含两个表:格瓦拉的电影票务信息和西十区的非电影票务信息，为清晰表述，以下对两个网站的数据分别说明。

西十区数据

概述

表位置：mongoDB - eastnb - xishiqu
数据更新时间：在每日7-23点间，西十区数据每5小时爬取覆写一次
日志位置：ssh//root@192.168.161.137 root/work-space/xishiqu.log

字段解析

常规信息加上_id一般有17-18个字段，主要差别是performer字段。

字段名称	字段类型	字段释义	备注
title	string	票项标题
describe	string	票项描述
date	string	票项起止时间	以`-`分隔，无则为空字符串，不建议处理成整型
venue	string	场馆名称	无则为空字符串
address	string	场馆地址	无则为空字符串
preview	string	预览图外链
lowest_price	string	最低价	XXX 元起
category	string	类目分类	一级分类
tag	string in list	标签分类	二级分类，可能会有多个，故用列表显示
count	string	西十区成交数	距离上次覆写的成交数，有需求可以处理为整型
face_value	string	票面价值	无则为空字符串
performer	string	表演者	无则不存在此字段
content	string	正文信息	已经处理成前端文本，需要修改先来找我
href	string	原网页链接	常规备查项
source	string	数据来源	表内统一为`西十区`，方便多表混合的区分
creat_time	ISODate	插入时间	第一次覆写时间，常规备查项
overwrite_time	ISODate	覆写时间	上次抓爬的覆写时间

其他

1.建议以覆写时间距离本地时间是否超过18个小时以上作为数据腐烂/过期的评判标准，超过18小时意味着极端情况下爬虫至少运行了两次都没有实现覆写。
2.相关推荐的判断以category相同且tag相同作为第一优先，以有且只有category相同作为第二优先
3.数据理论上已经实现去重，如果有重复项（包括网址重复和网址不重复的内容近似项）属于BUG，来找我。
4.代码和数据没经过测试，也无法保证对方不处理爬虫或调整页面结构。各种BUG和问题欢迎来找我，尤其要注意大批量本应存在的数据多次不覆写、结构错误等情况。

格瓦拉数据

概述

表位置：mongoDB - eastnb - gewara
数据更新时间：在每日7-23点间，格瓦拉数据每3小时爬取覆写一次
日志位置：ssh//root@192.168.161.137 root/work-space/gewara.log

字段解析

注意：电影的数据板块包括正在热映和即将上映两个部分

字段名称	字段类型	字段释义	备注
title	string	电影名称
describe	string	电影描述	无则为Null
release_date	ISODate	上映时间	无则无此字段，其实字段名改为date比较合适，后端有需要我就改一下
type	string in list	电影类型	无则为空列表
grade	string	电影评分	格瓦拉的评分系统
want_go	int	标记为想去的人次
buy_count	int	购买人次
hit_count	int	点击人次
collection_count	int	收藏人次
mark_count	int	后台评分	这个字段不要用，后续会删掉
release_condition	string	上映情况
length	string	电影时长	无则为空字符串
language	string in list	上映语种	无则为空列表
list_preview	string	列表页预览图	在列表页使用的预览图，图比较小
director	string in list	导演	导演不一定一个，故使用列表
arts	string in json in list	演员	{name:演员名;role:角色名;portrait:头像图外链}，名气小的演员可能没有头像图外链
countries	string in list	国家/地区	无则为空列表，好像是剧情内涉及到的国家和地区
distribution_companies	string	出品公司	无则为空字符串
honor	string	所获奖项	无则为空字符串
version	string in list	上映版本	无则为空列表，IMAX 3D、巨幕这种
big_preview	string	宣传大图	应用于首页banner，详情页背景等
video_preview	string	宣传照大图	无则无此字段
publicity_shots	string in list	剧照外链	无则无此字段，剧照小图，5-6个不等
content	string	简介正文	无则无此字段
presell	bool	是否在售	正在热映的不用管，即将上映的以此判断是否预售
category	string	类目板块	只分为`正在热映`或`即将上映`两种
href	string	原网页链接	常规备查项
source	string	数据来源	表内统一为`格瓦拉`，方便多表混合的区分
creat_time	ISODate	插入时间	第一次覆写时间，常规备查项
overwrite_time	ISODate	覆写时间	上次抓爬的覆写时间

其他

1.建议格瓦拉以覆写时间距离本地时间是否超过14小时以上作为各自数据腐烂/过期的评判标准，超过时限意味着极端情况下爬虫至少运行了两次都没有实现覆写。
2.西十区相关推荐的判断以category相同且tag相同作为第一优先，以有且只有category相同作为第二优先。
3.格瓦拉判断是否正在热映的标准是上映影院>=20家，低于20家不会再覆写。
4.数据理论上已经实现去重，如果有重复项（包括网址重复和网址不重复的内容近似项）属于BUG，来找我。
5.代码和数据没经过测试，也无法保证对方不处理爬虫或调整页面结构。各种BUG和问题欢迎来找我，尤其要注意大批量本应存在的数据多次不覆写、结构错误等情况。

横屏 - 票务数据文档

西十区 数据

概述

字段解析

其他

格瓦拉 数据

概述

字段解析

其他

内容目录

选择主题

西十区数据

格瓦拉数据