@gaoxiaoyunwei2017
2020-06-01T16:44:40.000000Z
字数 9466
阅读 983
彭小阳
今天分享四个篇章。第一个还是希望读懂整个质量,那么质量到底是什么?那么第二块更希望大家关注核心而不是边境,互联网质量底座到底是什么?第三部分是互联网质量体系,最后是一些简单总结和展望,差不多40分钟,我觉得我们逻辑就是这样。
那么快速进入第一个环节。我把定义的标题叫做读懂质量,认识时代,我原来其实还想了一些其他的标题,包括了质量前世今生,还是希望让大家全方位了解什么是质量。那么大家心中都有各自的答案,这个并不是好回答,因为质量是一个大概念,况且还要结合整个时代,所以我希望每个人建立自己的认知地图。
什么是质量?大家看到以往的制造业或者是工业企业,工业时代大家非常关注的词是品控,制造业品控也到了软件测试的阶段,也到了一些互联网快速蓬勃业务测试的阶段,那么这些都是质量管理的一个模式。
第二幅图是日本宇宙同类型的事故,最后是软件底层错误代码,折算是18亿人民币的损失,现在我们现在的质量管理经历了长足提升和发展,但是大家看最近一两年很多技术黑天鹅,也不乏看到几十亿甚至百亿的损失,这个不点名是哪些企业,是很敏感,那么这个事故是永远存在。
最后一幅图是QA,大家说质量第一个想到的职能是QA,这个是一个代名词,但是我们看现在包括我们今天会议的主题是DevOps的峰会,DevOps强调是全局化内建指标是一体化的,这些都是质量,但是质量不仅局限于这些。
质量是什么?这里更多说一些特点,其实用的一种方式是科学的角度和哲学的角度来了解整个的质量。
先从科学的角度,第一个是完整,经常做质量会关注全生命周期,这个是一个非常全链条的一种视角。第二块做质量是非常追求严谨的,我们只有通过和不通过,当然也有可能有有限通过,第三块是精细化,这里列举蝴蝶效应,1%的不稳定最后带来了整体99%的不稳定,这个是科学角度对于质量的理解。
从哲学角度这里用一个词叫做守经达权,其实熟读中国易经和古书的同学可能会了解,其实中国文化一直都是1+1不一定等于2,那么在做质量长期过程当中一直在思考,会面对大量的变化,但是我们希望自身是有一些深层次的思考,很多东西都不是变与不变,很多时候不变也是一种变,大家可以品一下我说的这句话。
在这个过程当中我们有很多很好的经,这个经是指经书的经,这个是敬畏这些大师,六西格玛大家做这个行业大家是很熟悉的,整个质量行业比尔史密斯在1986年提出是管理方法工具策略,一般大型企业是3到4个西格玛,其实可以不断追求到60个西格玛,那么到底是什么概念?
百万产品缺陷品是3.4个,这个是工业上面的一些信息,其实大量优秀的企业其实都在引入这样一种方法和观念,包括西门子日本索尼,追求零缺陷并且追求持续进步管理哲学是所有公司共同的期盼。
那么CMM大家会更加熟悉,从CMM到CMMI,整个软件评估标准其实给我们很多的指引,给很多评估改进的思想,最近也一直跟团队再聊,质量管理各种指标做到极致之后你会发现再去提升,4个西格玛到5西格玛的提升,你可用性4个9到5个9的提升,付出的成本是几何级数的投入,确实很难。
但是还是要保持对于质量持续提升的敬仰,最后无论是XP和SCRUM,这些敏捷开发的模式,其实也是带来很多组织文化的变革带来很多更高质量的交付,更多细化的工程实践。
DevOps是更加热门的趋势,我相信大家是很熟悉,所以这些经是不长变的,道德经5千字,全球有1700个版本,易经这些都是很久不变的,很多的一些核心的道理是不用来争论的,这个大家自然而然会沉淀下来,做质量行业会鼓励大家每个人要心存敬畏,记住心中的经。
我们的标准是互联网时代下质量管理,到底是互联网+质量还是质量+互联网?我们大家可能做互联网行业的同僚都比较熟悉,20年整个互联网是长足的发展,互联网用一种平台化用户思维作为底座不断一个又一个颠覆相应的行业,我们经常把它叫做互联网+。
互联网是基于底座,零售、金融一个个都是可以去切入,可以去进军,那么反观+互联网这个词更多是渠道,那么传统企业多了电商现代化的渠道,那么回到互联网和质量这回事,其实我的认同还是质量+互联网,因为对不同的时代,不同的业务特性,不同的一些质量的方案,这些都是一个时代而已,所以这个其实是属于还是要用质量这个底座来应对互联网这个时代。
看到时代的变迁,各个时代都需要去关注质量,都有一些质量的载体,我们的工业时代,20世纪上半段QA、QC安全生产,那么信息化时代软件测试到现在的互联网时代,现在是处于一个移动互联网的时代。
所以这里其实纵观古今,还是要做能力的传承,下一个时代大家说了很多技术的峰会或者是技术前沿的研讨都会提智能时代这个事情,智能时代到底什么时候来?它的到来会给质量带来什么改变?这个我们要做一些思考,现在正处于整个移动互联网的时代,离智能互联网还有一段距离。
大家经常会说在互联网下半场或者是在整个移动互联网时代的中盘,所以我想说的是这个中盘其实还很远,还很久,这个中国的互联网的渗透率其实电商是比较高25%,其实你看整个金融可能都是10个点以下包括很多的产业都没有互联网巨头真正的大。
所以我理解这里行业渗透率还是有非常大的空间,包括其实大家也看到生活服务空间超级生活和超级生态打了不可开交,业务的变化是常态,所以做质量管理你要理解变是常态,不可能不变,同时新兴技术的领域这里的发展也是带来很多的机会,所以能力也是需要做匹配。
去做5G你做好准备了吗?红利的末期海量的业务,比如说你三年前或者是五年前你真正出一个事故,对比现在来说都会好很多,现在你真的很多行业的业务真的已经出不了一次事故了,那么真的出一个事故影响力远比我们2年3年前会大很多,一个方面是红利末期,第二个是业务越滚越大。
最后一块我也是深有感触,现在是属于一个理念、方法论、最佳实践高产期,哪些是适合自己,所以我经常说变与不变,哪些是需要变的,那些是引入方法论,哪些是团队形态还没有落地,所以其实还是要选择最适合自己的这套方法论,去建立真正的认知能力,这个是非常重要的。
说了这么多,基本上把质量和互联网这件事情讲清楚了,所以也回到主体相对核心的地方,希望跟大家聊一下移动互联网质量底座是什么。底座也是非常热门的词,做互联网经常提,太多人关注边界,太多人关注战术,而太少人关注核心底座,关注长线战略。
你做质量管理全局规划也是如此,我们的底座究竟是什么?所以我们在底座其实也要做长期的积累,所以这里用了寸积铢累谋定后动这个词。
互联网三个特点,链条特别长,也有复杂业务,特别是电商,从用户到用户,从用户引流到用户长期的运营,中间过程可能时间太长,所以简单从用户到用户,迭代很快,可能每一天有200到300次发布,每天都可以即时发盘,最后是规模大,基于质量的方法论形成一个这样的底座,三块跟大家简单说一下。
流程集和管理和效率,我姑且把这个词以整体测试的流程集,效率是互联网重要的因素,是你的变化迭代很快,第三块是管理,你全局化的一些管理,希望大家看这张图不是割裂来看,是融合在一起的,效率中间其实是会有流程也会有管理,同样流程也会兼顾到效率、管理,所以这是一个完整的整体,所以希望大家是这样来理解的。
稍稍展开一下,经常提流程集,到底是什么?简单是测试方法、策略、流程、标准,经常看一个事情可以介入测试,要有测试策略、功能测试、结果测试等等,这个是策略标准化,那么测试流程、测试规范、协同流程、交付流程,这些都是流程规范包括工具的规范化。
是不是统一化的规范,是不是抽象服务化的能力,以及开源内部团队的自研以及到指标与度量,提到指标库,你工作有200到300个会关注整个的指标,包括可视化、可视化、持续改进,这些都是叫做质量流程集,是这样来归类模块。
整体的质量管理,从一个需求到最终的发布运营,其实我更希望达到看质量这个行业,不单单看测试,我们是需要看全职能,测试自身的提升是非常局限,也是非常有限,但是其他维度的价值也更大,经常说需求实在太多,需求质量到底怎么样?需求的预审,紧急插入怎样算,那么ROI到底怎么样?
对需求质量要有一个管理,这里可能会当掉一半不合理的需求,整个的研发自测的管理,代码评审单元测试,互联网领域里面单元测试是做的非常低,可能都是10以下单元测试的覆盖率,那么是不是合理?是不是应该有这样的步骤?
所以研发质量要去关注,持续交付、持续集成整个代码扫描合并管理,这个是CI,还有提测,我们是要有要求规范的,这个要求要拿出来,这个测试不展开了,会好理解,从右转的角度来看整个部署、运营会涵盖大量的质量环节,这个是各个职能全局化职能管理的思维和方法,这个是需要去扩展和理解的。
最后谈一下底座最后一块是效率,很多同学可能会把它认为是一个自动化,自动化带来效率挺大一块,但是大家可以看到在这个框架里面,其实效率只占了20%,非常小的一块,我会伴随着写了很多的度量,很多组织能力。
这个其实同样是非常核心,会关注整个效率,你整个云交付是多少开发占多少,研发占多少业务占多少,产品占多少,慢不是慢测试,不是慢整个研测阶段,可能是在阶段或者是整个业务方验收是有问题,你分片去看会识别更大的问题。
异常事件,你可以理解,其实整个测试团队是相对最末端的团队,所以前面任何一个债都是可以往后面去传,在整个质量管理角度上,从测试的视角可以看到大量的问题。
我们现在所有团队都会搜集异常,那么真正测试执行做下来的时间可能只有一半,50%都不到,我们等待的时间组测的时间可能远远超过我们的想象,所以这些大家有没有关注?
那么需求吞吐,你整个颗粒度是否合理,你整个研发千人的开发吞吐率是不是合理,测试平均吞吐率,配置化、配置化,最后到了组织能力,是不是敏捷化的团队,或者是敏捷化的比例是多少,你能告诉我?你测试是不是全栈的测试,你有没有交叉测试?你有没有工程文化的?你质量内建的意识是不是建立起来?
所以这个才是真正的效率。整个智能化建设提高了30%,可能觉得非常了不起,但是我可以告诉你可能真正的提升是300%才是合理,DevOps就是在强调一种非常全面效率化的打通,团队强调打通,问题大家协作解决。
非常简单把底座逻辑跟大家做了一些解析,说了底座之后我会稍稍延展到对于整个体系的理解,那么这个其实会相对水到渠成一点。建立在完善标准化管理,效率化建设以及规范度量管理,在逐步打开点线面体平台化演进的能力。
那么刚才提了相应的流程集、效率、管理,那么其实简单来说对于流程集这个事情,那么在整个团队就是两个字穹天,是平台化思维完整把这个场搜起来。
这张图希望大家用立体化思维来理解,先从底下来看,整个测试平台和整个需求管理,你的流水线,你的度量是天然融为一体的,经常我们很多会上是一条链条,但是我的理解是一体,并不是一条线,一大家有很多可以理解的面是融合在一起,并且有SAAS的能力,可以包很多外部测试团队进来,更加灵活去提供这样的能力。
在穹天本身的角度来看,我们会有一些比较清晰的划分,原子服务组建化能力,可以一个个的场景都能去支撑切换进来,所以对于各类测试场景和工具的建设,可以快速搭建起来,业务存在差异化是非常正常的或者是对于业务测试的要求存在差异化也是很正常。
但是怎样去把常态和定制化的事情区分出来,包括整个的流程其实要不断沉淀到平台,这样的话其实整个测试工作流的生态就会建立起来,会有大量的子系统,这个是平台化的规划,所以流程集这个事希望把所有的东西都非常自然的沉淀到一个平台,并且大家是共同参与共建,这个共建也提到是更多角色一起共建。
那么说完流程集平台化,也简单说一下质量管理。管理大家其实想到可能想到会有时间管理、问题、变更、发布这些基于了BAMBOO,那么拆开会有很多层次化流程的互动,全链条来看很多左移都在你流水线当中了。
应该沉淀整个流水线,右移还是有很多管理载体,但是底下数据是完全打通,可以看一下我们其实都是一种平台化思路,会把质量管理这件事情都会承担到西格玛平台,西格玛做什么?
是一个很好时间管理的平台,从最底层各类的质量标准,大家时间分集,处置规范怎样扣分,到应用支撑应用反馈服务台到应用实现,可以完善的建立知识库、报告跟进模式,你整个事件域可以一个个维度去建立起来,可以分业务跟团队。
所以其实是一个非常灵活去应对灵活的团队,曲线的度量模型整个测试管理平台怎样去支撑,包括你整个的一些曲线管理的一些应用,包括你的变更都是大量的规范,你整个的应用,你变更的支撑,这些不特别展开,其实还是能够不断去延展,你整个的一些体验管理,体验管理其实也是互联网一个特色。
其实在用户和体验当中基于整个运营过程,也是大量的模块,大量的一些规范或者是很多业务介入的一些协同质量的保障,其实也是需要不同的去创新和融入你新的真正需要的东西。
那么其实我在想整个测试也好,质量管理也好,其实有句话是特别重要,我们需要自动化一切并且需要度量一切,所以整个质量管理平台化把整个质量管理的厂全部装在一起形成流程上闭环,并且引导大家持续去改进,有所有人认可的一套标准,大家一起去看域里面的数据。
最后说整个效率管理平台化,效率包含的因素点其实还是非常多,效率这件事我们更多用流水线平台来作为整个平台化的承载,这个可以简单稍稍展开跟大家说说逻辑,效率这件事情涉及平台特点,除了颁布流水线还有穹天还有整个集团统一还有度量平台,所以这里会有很多的联系,但是效率这件事情希望大家还要关注很多其他的改善手段。
这里举几个例子,第一个大家现在整个行业推进业务组建化,基本上是一种前中台的一种模式,把通用服务融到一个平台,大家不用重复开发,前面创新也会非常快,整个配置化和平台化怎样理解,经常做很多需求,很多事情做配置化平台。
按照我们的经验来看,一个好的配置化平台可以当掉你50%到60%的需求,一个很好平台化平台,比如说你做业务你要去发布很多的活动,你要做社交裂变要做很多的推广,但是其实你这些东西都是可以平台化,素材都可以沉淀,这些都可以直接拿出来用,不需要重新开发。
那么原来会看一个数据,你真正业务需求占多少研发需求占多少产品需求占多少,以前业务需求可能占30%,但其实真正应该是90%,就是你这些东西没有去做,你整个敏捷化,我的保守估计应该有30%到50%效率的提升。
但是你整个团队敏捷化,你整个业务敏捷化有没有提速,包括你两个敏捷化团队有没有去做对比,一对比你会发现有很多的数据,工程效能的指标库,看全局的指标,需求研发域测试域不同的研发会得到不同的改进点。
整个的BAMBOO管理,业务千人你怎样做版本怎样多分支,包括不同版本的规则,保障流水线基本前置的要求,大家遵循这个要求。
组织的升级也有提到,整个全栈化业务转型,整个业务交叉,业务测试团队承接不住,第二个业务团队快速去支撑,大家业务知识是一样的,测地用地是现成的,以前是做监控项目的测试员,不同业务域测试员可以随时把控,包括测试文化建设包括建设委员会机制。
这个把很多的权利全部放在一线Leader来规划,这样平台化才是接地气的平台化,最后会发现效率这件事情如果指望着20%、30%的提升,效率这个事情是300%的提升,500%的提升才是互联网这个时代应该能够做到的。
那么简单总结一下整个质量体系的平台化,画了这张图,应该能够把这个逻辑更好跟大家讲清楚,我们需要有自己核心能力,有流程、效率质量,放在整个线上是怎样去对到每个阶段的能力匹配,网上是我们的组建能力,每个团队拼装来用的,在组建上面是要做流程的。
所以我们一直强调开放,你做一个东西是不能通用不能解决规划化的事情,你10个团队20个团队100个团队都能用你的东西这个是有价值,如果只服务一个团队是没有价值的,我们看整个平台化的架构,到我们这里EMS,遍布的流水线,穹天,雷神,一体化的监控,整体的管理形成了闭环。
这里形成是一种举证,是一个面的打通,不单单是链条的打通,这里是非常瓦状化的结构,在往上也看到整个服务业务,提供出来是一种有形的服务,质量保障服务用户体验服务,你的一些业务增长专业化的服务,这些其实真正构成了整个的体系。
我们经常说平台平台,其实你要看到平台下面是什么,互联网会去讲你看到浮上水面的冰山,你看不到底部是多少,所以平台化是非常重要以及是最后的载体。
把质量的体系基本说完,那么来稍稍总结,还有几块大的跟大家说一下,还是要保持你做质量管理的初心,你做技术是伴随行业成长,伴随业务成长产业的成长,最后是做到成就才是技术最终的成果,所以都能保持好不断追求卓越,挖掘用户价值,太高用户体验的价值和初衷,并且无论在哪个时代哪个行业都能与时俱进。
稍稍总结,说到质量的底座,整个流程规范沉淀,贯穿全局,效率的多元化,这些都是关键词,要抽象的说你的底座,整个平台化,刚才说到平台是点线面的协同,度量是有红利的,你整个结合指标的度量,过程价值的度量,异常事件的一些推动改善,这是整个度量。
那么多元化这件事情,业务和问题高效匹配,创新元素不同的集成,在整个框架下基于底座在加新的东西,要有开放化的东西,你可以百纳百川,你可以赋能做更好的东西,让你的体系更加完整更加健壮。其实也有很多数据本来想跟大家分享一下,昨天想补数据,但是很多数据还是有很多敏感性,公关过来过稿子可能没有那么快,我简单列举了一些数据给大家看一下。
我们做了很多平台化的事情,最终质量化的管理两年半到三年数据拿出来,68%是两年多测率创造的价值,漏测可以下降68%,28%跟95%是什么,28%会说严重事件的占比,多变的互联网行业出现问题再正常不过,但你怎样把这个问题控制更小一点或者把严重程度控制地更合理一点。
所以严重事故率能够减少到28%,95%是什么?后面讲,其实整个技术化能力,把底座搬到业务场景,搬到业务运营场景,会发现他们的问题可以是95%甚至是99%,甚至是不需要人来介入,这个是技术创造的,其实数字化的能力直接给它赋能了,降到95%、99%一点问题都没有。
75%和30%,是一些局部效率的改进,75%是整个迭代周期,到提升75%,并且其实这个数据也不合理,简单来说,你应该局别你随时想发APP版本出去,就能随时发出去,这个其实很多一些好的企业能够做到,还不是说好多冲突好多需求要确定,这样需求就没有意义。
30%是最近三个月时间测试平均交付,2.14降低到1.4,一个需求其实整个测试时间可以节省30%,那么可以多做30%的需求,这些是简单数据,可以把自己局部的数据做一些改善,希望大家是一种全局化的视角。
又整了一张大图,这里更多是自己的理解和对于整个分享的总结。我们也说了基于底座效率的管理和流程,这里其实是可以理解平台化,那么我们其实也是不断从底座去展开,也向整个平台化全局化可度量化这三个要求,整体的质量内建的敏捷组织,可度量这边的各种指标库,效率的度量研发的度量。
平台化有协同化、自动化、组织化,相应的要求,各种金融、支付、国际化甚至是一些618大促有效工具非常多,这里根本列不出来,再扩展四个角,整个左上角会关注整体的团队绩效管理,怎样去引导它,OKR和战略,部门战略职能战略公司战略要怎样结合,整个创新和用户机会的挖掘。
所以我觉得这个是挺大的板块,所以这个是挺大的板块,整个质量内建,持续交付等等这些内建要怎样推广,这个是右上角,整个平台的持续创新和孵化,其实很多场景就是一个平台不需要说太多,用的平台就是一个整体解决方案,还有数据化测试包括不断探索自动化不断演进再迭代,还有一些分析,这里不特别展开了。
简单说大家可以看到整个营销治理,平台化思路都是叫做啄木鸟,听上去很好玩,每年创造的价值会比你一个业务创造的价值会更多,所以这个就是技术人员挖掘的红利,可以把一些质量问题通判在研发质量里面解决了,对于用户体验就是平台。
我所有用户反馈所有的一些BUGG都能自动识别,基于我的算法高效研发渠道的触达,我整体性能管理,静态扫描是列张图其实比这张图会更大,但是内部就是一个平台化US,全部解决了,你整个的专项整个的混沌工程包括CHAOS MONKEY。
这个战略战术是通过平台来全面收归来打造规模化,这里其实我也在想,其实后续希望在9月份这里有一个专场,可以给我5个小时时间跟大家把一些重要的场景,单拿出来讲一下,我也会带上我的团队,整个平台化的思维整个质量管理的思维整个大促的思维是怎样设计。
团队是怎样沟通问题是怎样解决,用户质量的管理,整个用户或者是整个测试这件事情在互联网是怎样玩,可以有十几二十的专题,但是可以精挑细选,希望有更完整时间跟大家交流。
现在处于移动互联网的中盘,还有十几二十年到下一个,但是在这个过程当中识别到一些东西,面向整个智能时代整个底座还需要做什么完善?可以看到又加了一个小模块智能,能够看到现在整个质量管理有一些玩法,大数据的分析与算法。
现在把所有的用户反馈,一个大量海量数据用户反馈,就是一些业务层面的我觉得可以先分开,产业研发反馈基于自己的算法,会去高度匹配各个业务模块,甚至往一些接口一些服务方向去匹配,所以这个是会比很多的立体化监控思维会更进一步,立体化监控智能监控做的再细还是有1%或者是2%还遗漏出去。
你会发现监控没有发现,一百个事故里面有一个,一个区域网络出现了问题,那么你很多监控数据你看不出来,用户反馈已经识别出来了,那么做大数据的分析,那么智能测试还是在辅助测试变动分析决策,所以这里也在决策智能监控一起做,因为底座是一致的。
大家看到智能检测和智能底座是一样,业务赋能刚才说过,整个的平台化数字化能力建立起来,你完全可以在业务的层级里面很多运营人员做了很多繁重的事情,你可以帮他去提升,他也会带来很多质量分析,包括活动异常识别。
一个活动出问题可能不是可用性的问题,可以把一场识别出来,有可能是一个图片,有可能是3C家电的卖场,你里面都放水果,产品可用性是OK,但是通过智能头像识别是可以识别到异常的,买冰箱到了一个水果的卖场这个肯定是有问题。
促销文案,文案其实大家都要自己写,你有可能用AI去做写作,也可以用AI去帮他识别语音里面的错别字以及病句,运营人员都要一个个的看,运营场景质量团队做的啄木鸟的平台化,全部代替人工,所以很多场景,但是质量这个事情一直觉得应该是有一个底座,这个底座是什么?
首先要有海量的数据,各种的用户数据,你各种研发过程数据你要有,第二个你要有更好的平台,你的一些大数据平台也好或者是算法平台也好地域你要更新迭代你的算法,第三个就是你需要要有一个很好场景化规划,你要去想解决的问题是什么,所以这三点是可以构成整个智能一个底座,所以这个是我对未来智能时代的一个展望。
也稍稍总结一下,也说了这么多,我觉得把我想说的也跟大家表明了,那么最后用了一张图,这个图我觉得还是感觉朝气蓬勃,面向未来,大家还是会有更多的挑战。
包括负责质量管理这件事情时间不长,管理质量团队差不多6年时间,接触这个互联网14年的时间,我觉得一直心存敬畏,还是很多大师带来很多经历或者是方法论,给我们带来很多前期铺垫,同时我们也在不断基于新的时代不断去探索,所以我们觉得质量这件事情很美,互联网也很美,质量加互联网会更美。