@gaoxiaoyunwei2017
2018-01-17T14:49:17.000000Z
字数 3968
阅读 604
白凡
讲师 | 黄启辉
编辑 | 白凡
今天在这里主要讲是消费者云服务在运维过程中的一些落地的一些经验案例的一些分享。抛砖引玉吧,主要还是想学习到业界各位专家的一切先进的理念,一些先进的思路和方法来运用于我们工作中持续提升。
我演讲的主要是有这几个部分:
华为消费者云服务因为我们是第一次参加这个智能运维大会,如果把这个智能运维大会作为一个运维界的武林大会的话,我们是第一次参会,所以大家对这个华为消费者云这个业务可能还不是太了解,所以我先做一下介绍。
华为消费者云主要是提升华为消费者终端的生态及用户体验,构造消费者的华为终端用户的联系,所以华为消费者它主要是为华为终端而生的,既然是为华为终端而生,我们就看一下华为终端的情况。
这个是截至到17年前三季度的数据,华为终端手机前三季度发货量已经达到了1.12亿,在17年整个智能终端它的增长率7.1%的前提下,华为的发货量是增长了19%,应该说是逆势增长的非常快,跑赢了大势。
所以伴随着华为终端业务的发展,提升华为终端业务用户联系,构建生态的消费者云业务也取得了很大的发展,现在我们的用户数是达到了3亿,同比增长了30%,应用市场在Android手机里面应用市场下载类排名是TOP3的,并且现在随着华为终端用户手机发货量的增加还是在快速的增加,包括我们的照片,就现在照片的上传一天是4500多万张。
在今年的十一国庆的黄金周10月3号达到了历史的峰值,一天上传了1200多万张。因为它是给华为手机消费者提供一个手机存储之外的一个拓展的存储空间,所以各个消费者在手机的上传,手机照片的上传是非常多,现在一个月的增长是30P,现在到10月份大概有320亿张照片,所以整个来看华为消费者云伴随着终端业务的快速发展其实它是有一个非常大的跨越式的发展。
但这个跨越式的发展也给我们的运维带来了很多的挑战,只要是能够提升华为终端用户联系和体验的业务都在持续的做,现在面对消费者提供了有超过100种各类服务,包括手机,华为平板和PAD的APP和SDK。
我们刚刚也说到3.1亿用户,所以华为云服务用户是支撑全球的3.1亿消费者的体验。主机数量从16年不到1万台,今年增长到3万台,这是一个跨越式增长,现在的存储达到了总的存储量是510P。
还有一个就是我们现在全球化,因为这个可能是华为遇到的比较大的一个挑战,因为我们是置身全球的业务,所以每个国家的隐私安全数据保护法律要求是不一样的,这就要求华为在欧洲亚非拉和中国不同的区域数据中心支撑当地消费者的服务,这个就是对我们的监控和部署以及日常的运维提出了很大的挑战。
基于这些挑战,这些年主要是做了这几个事情:
华为其实15年到17年主机数量翻了三倍,但是运维人员的数量基本上是保持不变,主要投入的还是平台运维建设
依托华为公有云不仅可以支撑业务的快速部署,使用了计算存储和网络的资源,其实还运用了华为云数据库。依靠华为云大量的PaaS的服务和能力,还有大数据能力,上层的消费者云服务只需构建自己的IaaS,使用其全球的网络资源,所以华为公有云可以保障全球网络和动态的资源调度。
华为云通过可靠和敏捷网络的能力来实现我们高可靠性,现在华为消费者云在国内是北京和廊坊建立了两个双活中心,如果是一个中心出现故障,再秒级切换到另外一个中心,我们可以在15分钟内切换到佛山的服务中心,这样的话就可以避免消费者在体验我们的云服务的时候出现中断,所以我们基于华为消费者云做了可靠性部署,我们的可靠性总体是从16年的99.5%,现在提升到今年的99.9%。
满足了可靠性之后,华为它其实是以IPD起家的,这个跟IBM老师学的,并且以华为在运营商领域业务的成功来看,IPD层在华为也算是比较成功的层,在华为消费者云也是互联网的业务,不能完全适配,所以我们现在是除了继承华为的DevOps这部分,就是开发者之外,还引用了OPS流程,通过这个DevOps流程,是通过一体化的全功能团队来运作。同时通过流程和工具的连接,我们把工具嵌入到流程,并且在流程的各个点去切入,这样可以加快效率。
把DevOps作为思想贯穿落地到各个开发测试运维的组织里面去进行推广。刚才运维老师提到DevOps的标准,其实从华为目前DevOps来看,我们DevOps已经在华为消费者云已经做了很好的落地,如果16年是DevOps1.0的话,现在已经进入到了DevOps2.0的阶段了。
这个是我们的云眼自动化系统,云眼是我们消费者服务的运维工具,主要是通过自动化部署,自动化的资源发放和智能化监控,提升我们自动化运维效率支撑我们快速的增长。华为云主机数量是在快速增长的,但是通过自动化提升效率,下一步要做的就是全流程的自动化,如果研发和测试发布了版本之后,对于不涉及到数据库和关键性配制的一些变更,运维不需要手动更变。
此外,华为还开发了自动化的部署工具,通过用自己的工具来驱动从整个开发到部署的一个全流程。这个工具拉通了开发测试以及部署的环节。
这个是我们全球四个监控中心之一,通过监控中心可以监控华为手机在中国的各个区县乡镇的网络体系情况,并且是实现分钟级的告警。只要是华为手机的用户,在使用华为手机的过程中提供了网络的情况都可以实时的感知,去快速的处理。
这是运维大数据架构。运维大数据主要是分五层,从存储层,数据处理层,展示层,目前我们把客户的体验指标还有资源类的一些监控都列入到运维大数据,并且这个运维大数据现在是实现分钟级的告警,就当前我们每天可以达到120TB的处理量,这个量还是非常大的。
举几个我们在自动化部署和大数据监控的例子。
对于互联网的业务,端侧的发布是一个发布过程。通过运维大数据,通过我们的大数据系统对发布版本的体检指标做实时的跟踪和监控。如果现在有一个端侧的新版本的发布,发布了之后出现了接口调用,发现了版本用户通过进一步的分析接口能够锁定和分析问题,改善这个版本的质量,相当于是在消费者云服务端侧版本总是有大数据,然后实时的跟踪和改善质量。
通过华为消费者云服务登陆异常来定位运营商网络的异常,这也是一个比较典型的例子,就是广东广西出现了移动骨干网出现丢包,导致我们出现了问题。在这儿监控到之后,就赶快调度到了佛山,然后就由红色出现了恢复。
中国的网络情况是比较复杂的,特别是今年上半年,整个中国互联网骨干网出现了很多中断,我们统计今年上半年出现了12次的重大中断,比较大的是3月份,中铁在施工的时候挖断了中国电信的骨干网,我看各个公有云都发布了这个公告。因为我们的机房是在北京和廊坊,南北骨干网中断了之后,及时把南方的流量调到了佛山,通过佛山迂回到北方区,整个服务是没有中断的。
通过大数据可以帮助CDN供应商,华为应用市场下载类的业务,还有视频流媒体的业务都是跑在CDN上面,通过CDN的监控可以发现一些调度方面的问题。因为CDN可能现在比较头痛的问题就是出现跨域调度,广东可能调到广西甚至更远的省份,这个会影响到客户的体验。如果你下载类的,调度到另外的省份,而非本地网络的话,下载还是可以保证的,但是流媒体华为视频类、直播类的流媒体体验落差就会很大,所以通过这块通过CDN的包括华为视频,播放速度的监控来跟第三方的CDN互动,来帮助他们优化调度的设备,从目前来看我们的两个CDN供应商,对我们大数据监控的数据需求非常迫切,直接是让我们把我们大数据分析的结果开放给他们,把他们拉入到自动调度系统去。
除了我们大数据系统,除了宏观的监控之外,对某一个区域和县市,会出现网络的情况,对个体,都会进行监控。这个例子就是对个体的监控,因为华为消费者云现在是安卓了排名TOP3的市场,所以经常有刷单的异常,出现异常刷单会交给运营商处理。
现在运维大数据已经在指导我们日常的运维的过程了。刚刚两位专家和老师也聊了运维可能是背锅侠,现在稍微有一些改观。我们通过运维大数据,不但可以监控还可以做实时分析,如果你研发或者开发版本质量问题,其实是很难让运维来背锅的,毕竟我们现在有智能化部署环境之后,我们的熬夜也在大部分减少。
AI Ops展望
目前还存在一个问题,大数据量一天产生180TB的数据,这些大量的数据需要人来分析,需要投入大量的精力来分析。当然我们现在形成了一个比较好的习惯,就是每天上班,研发和运维人员他首先会收到大数据监控的报表,基于这个报表统计前一天业务的总体运行情况,这个现在已经形成了一个惯例。同时在研发工程师的研发区域会有一个小屏来显示详细情况。
伴随着数据量越来越大,投入的分析越来越大,这个怎么来解决呢,可能下一步就是要推入AIOps,包括18年我们可能就是重点推动AIOps向华为消费者云服务的落地,希望明年分享的时候我们能拿出一些AIOps的案例同大家做一些分享。