[关闭]
@kangwg 2017-02-15T10:00:49.000000Z 字数 1112 阅读 815

jinyao


功能点:抓爬,清理数据,分词,导入mongodb,导入mysql,防腐烂;
将要重点做的:在界面可配置抓爬,分词;

工作

数据能查
有效性监控

platform分析报告
通用性方案?

方案

抓取到mongo

1.html清洗,保存原始内容;
2.实时新闻,语音新闻,社区活动,区县新闻,热点新闻,每小时爬一次,每次爬取全部内容(数据量小,每个只有几十条,而且它们有些不是按照时间来排序的);社区新闻和活动一天爬一次。
3.根据sourceUrl和标题去重后存储到mongo

导入到业务db

独立模块,提前5分钟(mongo时间)
新建表:data_import_status

字段 意义
id
biz news/activity
importTime 最后一次导入的数据的时间(mongodb中的createTime字段)

表:data_import_rel(mongodb和数据库的一一对应关系)

字段 意义
id
source_id 来源id
biz_id 业务id
biz 业务类型

信息搜索

1.第一缓存:存储id列表;第二缓存:存储详细
2.数据查询从缓存中查,缓存中没有那么查询数据库并将查询的数据保存到缓存中
3.缓存刷新依赖与导入,有更新则自动触发缓存刷新(最小周期是5分钟或者是10条)
4.分页要有基准点lastindex
5.缓存key编号规则
规则:分类_参数。例如:
实体:id是1000的活动,event_1000
搜索结果:s_news-lastIndex-1-10-keyword。s_news-1200-1-10-iphone,新闻搜索结果,起始点是id是1200的新闻,第一页,每页是10个,关键字是iphone
6.收藏缓存处理:收藏缓存处理依赖于用户是否收藏的行为;
当搜索新闻时,如果缓存中没有这条新闻的记录,那么收藏缓存依赖于查询新闻时附加的是否收藏的信息。

抓取监控

  1. 监控项:网址(无效了),内容格式(list,detail)
  2. 失败保存记录不要频繁。换代理检查。
  3. 监控策略第三方监控软件定

本地抓爬工作安排

1.17-1.20;爬取内容:活动,新闻

标签处理

保留的标签和属性(临时方案,以后再加或者修改)

标签 属性
p align
a href
img src
center
strong

删除的标签

html,body,div,xml,script,style,head,ul,li,article,em,font,form,i,b,video,title,summary,strong,span,select

处理图片

判断不被p标签包围的img标签,如何这个图片小于10kb,则删除这个图片链接

处理表格

将表格转为图片

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注