[关闭]
@heavysheep 2020-10-23T10:05:15.000000Z 字数 690 阅读 552

bjwxb会议纪要

会议纪要


1023 10:00 会议

主要议题1: 事件发现相关问题

1. 本周期产生的热点事件,需要与 当天的已产生的热点事件(可能已经产生了的)做合并,重新计算热度值和统计值

A: 上次会议的结论是不用合并。另外任务是不间断执行的,假设12:00点取一次前24小时的,13:00点取一次前24小时的,则实际数据的时间区间有23小时是重合的。且业务并不也不关注实时以外的情况。如果两次合并,反而会把本来合理的实时数据冲热导致不准确。

2. 提供外部接口,导入/输入 一些热点数据,对这些热点数据 进行聚类(流程图中的第5步)。

A: 可以,可以结合业务方期望输入/输出方式再讨论。如无必要不推荐实现此需求,首先,此任务算量大耗时长,属于CPU密集型的单管道任务,如果插入任务操作有误或不合理,会导致后续定时计算任务排队;其次,插入任务无法获得实时返回结果,依然要等待前置任务结束后执行,导致实现此需求的实际意义降低。

3数据筛选规则中,按访问量条件(---view) 这个可能要改,灵活一点,有可能不是访问量,有的可能是 转发量、点赞量等,因为像微博数据没有访问量指标,只有转发量+点赞量+回复量。

A: 没有问题。现有方案只是示例,实际上不光是转发、点赞、回复,只要数据库的单次操作支持,根据其他字段排序甚至script形式的二次计算做筛选规则都可以。

1012 10:00 会议

  1. 删除地域分类中的"其他"返回

0928 10:30 会议

  1. 修改枚举类型(待收到枚举数据后);
  2. 修改情感分类返回参数,result为{"枚举分类": 置信度}形式;
  3. 新增敏感度服务的广告垃圾涉黄等三项阈值参数,作为是否通过过滤的判断标准。
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注