@gaoxiaoyunwei2017
2019-04-18T15:01:16.000000Z
字数 3871
阅读 655
北哥
向飞
- 阿里巴巴基础设施事业部高级技术专家
做数据中心是很小众化的,从某种程度上来说,国内除了阿里巴巴和另外几家云厂商就没有了。本文将根据以下几点来分享阿里巴巴智能数据中心:
上面是截止到2018年6月份国内云市场份额占比的情况。阿里占据市场份额的43%,最下面的一列是第二到第八名的市场份额。在国内市场份额,阿里巴巴稳居第一位,第二位和第八位加起来比阿里巴巴还要少一点。
还有一个数据,虽然阿里云已经十年了,但是前几年是以市场培育和内部技术沉淀为主,过去5年是商业化阶段,有一些突飞猛进的表现。据统计,在过去的5年阿里云市场份额增长12倍,Gartner、IDC数据显示阿里云全球市场第三。
可得出,这是一个快速的市场,我们在国内或者国际市场处于猛烈增长,同时我们也将面临各种各样的问题和挑战。
此图是阿里巴巴智能数据中心全球覆盖情况。
目前阿里云智能数据中心核心是在亚太区,从图上就可以看到。除了非洲之外,各大洲都有数据中心的分布。特别是美东、美西和澳大利亚,美东和美西是针对美洲的市场。
数据中心业务的分布可以很好的支持国内企业走向国际市场,也可以更好地服务国际上的客户,包括一些国际上的大客户进入国内的市场。
目前数据中心分布18个地域,具有49个可用区。
从整个行业发展和阿里云自身的快速发展情况来说,阿里云智能虽然过去5年跻身于全球第三,而且还是在不断的增长壮大。
根据Uptime的数据报告,所有DC中断中70%由人为事故造成。
云市场的规模越来越大,每年还在翻倍的增长。在这种叠加的情况下,大家面临的挑战必然是越来越多。我们面临的问题就是上面这句话:保障规模化的数据中心下高效和稳定运行。
有问题、有挑战、有市场,给大家带来的就是有机会。
阿里巴巴提出智能化是2016年,2016年也是云市场进入了快速发展期,服务器超过百万规模。很多时候量级超过了边界点,带来的挑战完全不一样。从那时候我们就提出来,用AI重塑基础设施。右边的图,是2017年提出了AIOps的概念,在这个概念里,核心有两部分,除了平台之外,还有引入算法,任何算法都是基于大数据,只要有数据才有算法,才能发挥作用。
这个是阿里巴巴智能数据中心AIOps总揽,分为三部分:业务平台、数据中台和算法中台。左边图是这三部分的逻辑关系。
任何公司和任何业务的发展一开始都是通过小应用和小工具完成的,随着业务的不断迭代,可能慢慢增长为业务平台,平台都会有各种连接,就会思考平台之间的自动化,以此来提升效率。有了平台和自动化,才能沉淀出来各方面、全维度、全场景的数据。在有数据的情况下,我们才会建整体的数据中台,把整体的数据化标准出来。我们的想法是怎样更好的利用数据中台产生的数据,来结合业务平台思考。
自动化是在追求效率和稳定性,用平台化和自动化解决70%人为故障的问题。用数字化描述业务,以数据来驱动对业务的决策,从业务来说只看到一个点一个点,从数据化才能看到全局。智能化是另外一个层面,人的判断永远都是局部的,虽然有数据化,还需要对全局上做一些最优智能的决策。
以上是我们建AIOps平台的想法,有了这个想法和关联关系,才决定了我们的方向。
我们每年承载是接近上百万的服务器交互。基础设施智能运维平台分为三层:
我们想做的是语言需求怎么规划驱动业务,在数据中心智能运维,靠人为的优化变成驱动的区划。数据中心里面有很大部分是风和水电,大家都会调整,就是PUE,人的调整永远都是根据个人的经验来调的,比如说某些东西调到某些级别。前面说到了数据的收集,算法应该调到哪个值更合适,会考虑得更多。这是三大平台的总体建设思路。
这个是基础设施规划与交付平台。这里生产侧供应链是解决基础设施供应链的问题。首先要解决的是业务需求规划,进一步成数据中心的规划,建多大的数据中心。随着硬件的发展,我们网络带宽已经到400G,这会直接决定了供应链能不能产生对应的货。还有IDC的基建是自动化的交付,保证硬件进入数据中心到上线可以使用,更加的高效。比如OS交付,到了一定量之后,10台机器放10天没有关系,但是,十几二十万台就是很大的成本。
必须保证供给的效率,就是不断的供给,从业务规划来说,这是不容易解决的问题,缺少十几二十台从哪都可以挪过来,但是,缺少十万台机器的时候,就是行业的问题了,这需要通过整体的业务规划来解决。
智能预测和预警,是通过大家在云产品上下单获得数据分析的。另外,我们还会参考基础设施有多少库存,结合各方面的数据来评估,在接下去一个月或者是一年内,在某个区域建多少,这是整体的智能化预测的事情。有了这些数据之后,通过数据中台,不管是从老板视角还是执行人员视角,都能看到执行情况,有利于老板做各种方面的决策,这就形成了决策执行的闭环。
本图是通过一个供应链具体的配置来剖析需求预测。右侧是供应链月度预测和年预测的统计图,目前整体预测准确率大于85%。从算法上来说,在5月会告诉你有多少数是卖掉了,月度可以在90%以上,年度会低一点,但是平均起来会超过85%。
这为供应的效率和供应的成本提供了很大帮助,在规模的情况下,准确率提升一个点,带来的成本节约可能就是几百万,因为会有规模效应。
任何服务器和网络设备交付到数据中心以及OS上架之后,要进入到运营阶段,这是由数据中心智能平台承载的。在百万级服务器规模下,整体的运营优化会变得很严肃,服务器的增长和人员规模的增长,需要从全局上进行判断。还有服务器运维和网络运维,需要通过业务平台自动化解决,以平台固化下的整体流程,减少人为的操作,以此降低所有数据中心70%由人为造成的故障。
所要达成的目标:
右下图是实际的情况。这里是通过引入了各种机器学习算法和采集机器上各维度的数据以及机器物理数据、各种应用数据和指标,大概在什么时候、什么时间点出现了拐点。会提前把这些机器清走,批量维修,避免出现问题后再做处理。
目前是提前30天预测硬盘故障,拿到的数据比业界现有技术提升达25%以上。
上面内容谈到任何业务都是分层来做的,数据中心面对更多的是对风和水电及人的层面提出效应。对于集群平台来说,先要把上层云产品和用户进行分层管理的能力做好。物理设备达到一定规模下,不发生故障是万万不可能的,但会不会影响用户?这是产品用户的能力。在发生故障之后,让用户无感知,是需要联动解决的,如集群部署、服务变更和异常修复,会承担这方面的职责。
右边是要达到的目标:
上图是智能修复的思路,有软硬件一体化的思想在里面,包括区块硬件数据,收集各个方面数据,通过机器学习算法来判断发生了什么情况。另一个是发生了故障之后,到底应该怎么解决,解决的方式是什么,用哪种方式是对用户影响更小又是能修复的。0-60分是人可以做的,但是60-80分是要智能化解决的,智能化所依赖的数据更全面,能得到全面的解决。还有修复策略,人会参与到验证的过程,包括整合到专家系统,更好的解决算法层面上的问题。
目前智能化决策准确率可达95%以上,这是经过实际案例验证过的,而且比人更合理。
哪些地方还可以用更加智能化来做一些提升呢?有下面三点展望:
以上是数据中心基础设施平台总的目标,也是指引我们近几年发展方向。