[关闭]
@twein89 2016-06-23T15:22:23.000000Z 字数 660 阅读 1080

爬虫数据库设计

爬虫 数据库


数据库名:

从某个网站抓取的数据据保存到单个数据库,如从携程抓取保存到ctrip,从艺龙抓取保存到elong

数据表:

每个数据库设计两类数据表,第一类保存酒店信息,第二类保存酒店房型信息,以城市名区分:city_hotel, city_hotel_room。如杭州的酒店信息保存为两个表:hangzhou_hotel, hangzhou_hotel_room

数据库字段:

表一.city_hotel

字段:酒店id/hotelid, 酒店名/htlname, 酒店地址/htladdress, 酒店评分/hotel_value, 其他详细信息/hotel_detail, 更新时间/updatetime

表二.city_hotel_room

字段:房型id/roomid, 基准房型名/baseroomname,房型名/room_type_name, 价格/price, 酒店id/ hotelid, 房型详细信息/room_detail, 更新时间/updatetime
爬取表二时可先从表一获取hotelid后再进行抓取

预测算法中data.xlsx的数据格式

hotel, Numbers, OTA_single, OTA, single, group, Date, Weekday, Week, Month, Season, T1, T2, ..., T15
可能需要抓取的数据:天气
长期预测时因为无法预测长期天气,因此不引入天气数据
短期预测可能会受天气影响,和那边沟通后需要评估下加入天气后的短期预测效果
短期天气预报一般3天内比较精确,故爬取未来一周天气足够。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注