@kangwg
2017-02-15T10:00:49.000000Z
字数 1112
阅读 815
功能点:抓爬,清理数据,分词,导入mongodb,导入mysql,防腐烂;
将要重点做的:在界面可配置抓爬,分词;
数据能查
有效性监控
platform分析报告
通用性方案?
1.html清洗,保存原始内容;
2.实时新闻,语音新闻,社区活动,区县新闻,热点新闻,每小时爬一次,每次爬取全部内容(数据量小,每个只有几十条,而且它们有些不是按照时间来排序的);社区新闻和活动一天爬一次。
3.根据sourceUrl和标题去重后存储到mongo
独立模块,提前5分钟(mongo时间)
新建表:data_import_status
字段 | 意义 |
---|---|
id | |
biz | news/activity |
importTime | 最后一次导入的数据的时间(mongodb中的createTime字段) |
表:data_import_rel(mongodb和数据库的一一对应关系)
字段 | 意义 |
---|---|
id | |
source_id | 来源id |
biz_id | 业务id |
biz | 业务类型 |
1.第一缓存:存储id列表;第二缓存:存储详细
2.数据查询从缓存中查,缓存中没有那么查询数据库并将查询的数据保存到缓存中
3.缓存刷新依赖与导入,有更新则自动触发缓存刷新(最小周期是5分钟或者是10条)
4.分页要有基准点lastindex
5.缓存key编号规则
规则:分类_参数。例如:
实体:id是1000的活动,event_1000
搜索结果:s_news-lastIndex-1-10-keyword。s_news-1200-1-10-iphone,新闻搜索结果,起始点是id是1200的新闻,第一页,每页是10个,关键字是iphone
6.收藏缓存处理:收藏缓存处理依赖于用户是否收藏的行为;
当搜索新闻时,如果缓存中没有这条新闻的记录,那么收藏缓存依赖于查询新闻时附加的是否收藏的信息。
- 监控项:网址(无效了),内容格式(list,detail)
- 失败保存记录不要频繁。换代理检查。
- 监控策略第三方监控软件定
标签 | 属性 |
---|---|
p | align |
a | href |
img | src |
center | |
strong |
html,body,div,xml,script,style,head,ul,li,article,em,font,form,i,b,video,title,summary,strong,span,select
判断不被p标签包围的img标签,如何这个图片小于10kb,则删除这个图片链接
将表格转为图片