@Rookie
2022-01-26T13:50:38.000000Z
字数 1293
阅读 539
赢海
为了明确线上事件的报告,应急响应,处理,复盘机制,确保以快速,高效,准确应急处理能力来保证各类业务系统的正常运转,当发生突发事件时,能在最短的事件内回复系统的正常运转,将因此带来的损失以及影响控制到最低限度,特此定此流程。
发现线上事件的人员,包括用户,运维监控,测试人员等发现线上事件的人员,报告发现线上事件后,需第一时间报告产品经理/项目经理。
事件发生时:
1. 接受线上事件报告,及时回复客户问题原因以及处理态度
2. 判断线上事故是否故障:接到线上事件报告后,首先判断线上事件的性质
3. 对外报告处理故障进展:如果是故障,立即按流程要求通知相关负责人。产品经理和项目经理随时将处理情况报给受影响的部门和相关管理人员。如果是非事故,需要协助解决或引导用户找到解决办法。
线上故障为A级,需要立即通知运维部,研发管理部以及相关产品部门的领导,并告知中心领导。由各部门领导协调事故处理,3分钟内响应事故,2小时内给予解决,保证系统恢复正常,并及时告知售后经理/项目经理。
线上故障为B级,需要立即通知运维部,研发管理部门的领导,并告知中心领导。由各部门领导协调事故处理,10分钟内响应事故,8小时内给予解决,保证系统恢复正常,并及时告知售后经理/项目经理。
线上问题为C级,需要尽快录入tapd系统,通知产品部门产品经理或技术经理以及测试经理,并告知部门负责人,由产品经理/技术经理协助处理线上问题,保证系统在最短事件内恢复正常,最长不超过48小时。
线上故障处理后都需要测试人员进行跟进,协助技术人员分析定位问题,如果是A级或是B级故障,问题修复后第一时间验证并告知产品经理/项目经理;如果是C级故障,开发人员修复问题后及时更新缺陷状态并通知测试人员验证,并评估是否需要发布