[关闭]
@Rookie 2022-01-26T13:50:38.000000Z 字数 1293 阅读 539

线上事件处理流程规范

赢海


时间处理流程图

image_1fpbsae9855lt4ed941jc81lbr1g.png-155.2kB

目的

为了明确线上事件的报告,应急响应,处理,复盘机制,确保以快速,高效,准确应急处理能力来保证各类业务系统的正常运转,当发生突发事件时,能在最短的事件内回复系统的正常运转,将因此带来的损失以及影响控制到最低限度,特此定此流程。

线上问题定义

  1. 线上事件:包括线上故障和需求
  2. 线上故障:包括线上故障 A级(灾难级),B级(紧急问题) 和C级(一般故障) D级(产品优化需求流程图暂时缺失)
  3. 线上故障的等级定义如下

image_1fpbmgrng1jd36ai11ef7v8147em.png-613.6kB

D级(代产品确认)

  1. 业务方提出的如果是需求, 需要设计组 *天内进行需求评估以及设计
  2. 设计好后推进技术方案评定, 技术组 *天给预估开发工期
  3. 产品经理根据现有需求业务优先级定出优先级进行排期开发的时间节点
  4. 定好时间节点后, 告知业务方进行优化上线时间节点

问题处理

1. 报告问题

发现线上事件的人员,包括用户,运维监控,测试人员等发现线上事件的人员,报告发现线上事件后,需第一时间报告产品经理/项目经理。

2. 受理问题

事件发生时:
1. 接受线上事件报告,及时回复客户问题原因以及处理态度
2. 判断线上事故是否故障:接到线上事件报告后,首先判断线上事件的性质
3. 对外报告处理故障进展:如果是故障,立即按流程要求通知相关负责人。产品经理和项目经理随时将处理情况报给受影响的部门和相关管理人员。如果是非事故,需要协助解决或引导用户找到解决办法。

3. 处理问题:

  1. 线上故障为A级,需要立即通知运维部,研发管理部以及相关产品部门的领导,并告知中心领导。由各部门领导协调事故处理,3分钟内响应事故,2小时内给予解决,保证系统恢复正常,并及时告知售后经理/项目经理。

  2. 线上故障为B级,需要立即通知运维部,研发管理部门的领导,并告知中心领导。由各部门领导协调事故处理,10分钟内响应事故,8小时内给予解决,保证系统恢复正常,并及时告知售后经理/项目经理。

  3. 线上问题为C级,需要尽快录入tapd系统,通知产品部门产品经理或技术经理以及测试经理,并告知部门负责人,由产品经理/技术经理协助处理线上问题,保证系统在最短事件内恢复正常,最长不超过48小时。

4. 验证问题

线上故障处理后都需要测试人员进行跟进,协助技术人员分析定位问题,如果是A级或是B级故障,问题修复后第一时间验证并告知产品经理/项目经理;如果是C级故障,开发人员修复问题后及时更新缺陷状态并通知测试人员验证,并评估是否需要发布

  1. 需要发布:问题处理人员需要按照上线管理流程进行程序发布
  2. 不需要发布。测试人员直接验证问题是否已解决;如果验证通过,需要在工单系统中关闭问题单。如果验证不通过,则将问题重新打开并提醒问题处理人需要重新进行问题修复

5.通知业务方

  1. 线上故障为A级或者B级,故障恢复前,由售后经理或项目经理跟踪处理进展。每隔30分钟告知业务方,直至故障恢复。
  2. 线上故障为C级,由售后经理/项目经理跟踪问题状态,问题单关闭后实时通知业务方。

事故培训流程

image_1fn66khkb1ibrvapqdb14j4n0a2b.png-37.2kB

线上问题责任制

  1. 谁接收(业务方)问题谁负责跟踪回馈
  2. 谁接收(反馈)问题谁负责跟踪解决
  3. 谁跟踪(解决)谁负责给出解决方案
  4. 谁给出解决方案谁负责评审
  5. 评审后确认解决方案解决
  6. 解决后确认完成反馈跟踪
  7. 跟踪后确认反馈业务方完成
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注