[关闭]
@gaoxiaoyunwei2017 2017-12-15T14:43:57.000000Z 字数 5388 阅读 467

大型企业智能运维深度解析 --- 孙杰

北哥


讲师简介

孙杰

听了有关AI运维之后有很多人感到比较焦虑,我所从事的运维或开发将来会不会被AI给代替掉呢?为什么会产生这个焦虑?现在新技术发展的特别快,各种语言、技术、理念让大家确实感到很焦虑。但是有一点,在这里我要特别重申一点,AI在目前这个阶段还是一种辅助大家来进行判断和学习,包括定位问题的工具。就像无人驾驶,现在可以做到完全没有人驾驶吗?肯定不行,无人驾驶在一些路比较宽,视线比较好情况下,是完全可以替代人的,但是在北京这样的路段,交通特别复杂的路况,人特别多,车特别多,无人驾驶还是完全不能使用的,因为它还有很长一段路要走。AI运维就像无人驾驶一样,未来前景很光明,但是中间还有很长一段路要走,它现在还是辅助人的定位。

我单位智能运维还没有完全落地,也是在一个探索的阶段。我单位是给中石油做集成化的单位。在这样一个传统的企业它的运维该如何走?从以前的脚本到工具,到自动化,再到现在的智能运维,中间这个步骤该怎么走?今天就从下面五个方面给大家分享下:

image.png-136.2kB

1. 构建一个全面科学的IT运维管理体系

image.png-400.1kB

image.png-444.2kB
我们希望在现有的业务体系里面,运维部门要实现什么样的运维目标和理念呢?

image.png-222.1kB

我们企业存在的核心问题有:

image.png-446.3kB

要做好智能化运维之前,我们经过深入的分析,提了四个要求:

image.png-333.9kB

我们希望构建的现代化和智能化的运维管理模式,这也是大家考虑的问题。

2. 全景业务服务管理

image.png-627.2kB

在互联网大爆炸时代,国家层面上也在提互联网+、数字化转型、智能化等等。我们的系统能不能快速响应,为业务保驾护航?

image.png-93.5kB

面向业务的IT服务管理主要有这几个特点:

image.png-476.6kB

建立以业务为导向的综合监控平台,主要目的就是要统一展现。之前大家都在说全链路压测和全链路监测,这个目的就是从访问入口进来后一直到数据输去,每一个过程都要能监控到。

image.png-422.9kB

从业务的视角进行IT管理资源的视图,可以捕捉到异常的点。在故障发生的时候,你能知道在这个时间点发生了什么事,同时还会在某些事件上反应出来。比如某个故障发生之后页面响应时间长了,数据库也出现了慢查询,CPU也突然一下飙升了,这些地方这些资源突然发生变化了之后,影响到哪些业务呢?这时候就需要将监控资源视图和业务关联起来,这样才能确定这些指标发生异常之后到底影响了哪些业务。

image.png-349.6kB

这个是问题的诊断和分析。

image.png-440.1kB

任何问题首先要采集上来,没有采集没有数据源没法分析问题的。

采集层需要把数据采集过来。
中间层做一些性能分析,配置管理和预警分析。
展示层将分析的结果展示出业务的各种图表。
通过这些才能够科学的去判断和预测问题,从而决策问题。

3. 基于大数据平台的日志分析和多维报表

image.png-145.8kB
以前的日志分析没有像现在的ELK平台处理的这么快和及时。通过日志关联分析帮助准确全面定位提升效能和满意度,为科学决策提供量化依据。

image.png-194.9kB
将采集到的网络监控数据、机房数据、服务器和云环境监控数据以及摄像头报警数据集中起来,然后进行判断和分析。
数据汇集之后的PMDB的指标和模型,这个里面指标就很多了。把采集来的数据要做建模,然后通过这个模型进行相应的算法分析。
根据不同的资源类来定义KPI指标,建模目的就是扩展监控范围,为资源管理、告警管理、集中化展现等其他模块提供数据模型的支撑。

image.png-229.4kB
数据采集有两种类型,一种是被动的,一种是主动的。

采集业务相关指标,在这个时候可以对数据进行预处理,做一些有效性的识别,比如这个信息和日志是不是你关注的。对不友好的日志进行格式化处理。

性能指标的计算,要跟业务进行协同,从业务的角度来定义。

阈值的判断,一个是固定的,一个是动态的。固定阈值就相当于资源使用率,肯定有一个上限的。动态阈值像一些性能曲线,CPU的利用率,磁盘的使用率,这些是可以使用动态阈值的。根据历史数据来计算出来这个动态阈值,某一刻有个峰值,根据这些合理计算出在那个时刻到底需要多少资源。

根据上面的阈值会有一个报警的事件,任何事件产生都是基于时间的,故障的定位肯定也要基于时间找到相关的日志和发生的事件。

image.png-179.8kB

image.png-450.2kB

事件和时序的关联分析。某个时间段出现了故障,都会产生一些事件的,对它筛选和过滤是能够详细捕捉到故障和根因的。事件诊断一直是运维领域一个很重要的工作,事件和时序数据的相关性不仅可以为事件诊断提供很好的启发,而且在帮助进行根因分析都能提供很好的线索。

image.png-278.2kB

数据的汇聚处理就是把采集到的数据关联起来,压缩、过滤形成标准化的信息。
数据导入可以通过全量的HDFS和增量的Kafka来实现。

image.png-219.1kB

基于大数据平台的多维报表,根据自己的需要,按照日、周、月来生成运维报告,发送给运维管理层部门和领导,这些数据是他们比较关心的,会清楚这些时段里发生了哪些问题,造成了多大的影响,然后决定相关的资源是否进行扩充,相应的业务部署是否需要调整。

image.png-410.7kB

综合展示比较关注的是性能分析、容量分析和自动化配置。比如我今年采购了5TB存储,我用了多少,明年还需要扩容多少,业务增长量会有多少,这个都影响到企业的采购。我们每年集中采购一次,要写一些相关的招标参数,根据业务进行评估,来推算出明年大概需要买多少的存储量等等。

4. 统一展现事件及监控告警平台

image.png-259.6kB

IT监控管理的发展大概有三代,从上世纪九十年代至今,第一代是以网络为中心,在这个时候咱们提供比较多的都是基于网络的监控和故障发现,带宽管理和服务水平协议。第二代监控就是以监控IT基础设施为中心,看到比较多的就是主机、存储等等。第三代监控以IT应用为中心的,针对比较高度复杂的交易,像一些互联网公司,他们都是需要实现面向用户体验和面向应用可用性的实时监测和故障的智能诊断。

5. 故障管理及自治自愈

image.png-72.8kB
这是我们每天收到的告警情况统计。

image.png-476.2kB
做完优化之后我们希望通过反映出的信息里提炼出我们最想要的信息,从而减少每天的告警信息量。

image.png-70.6kB

目标就是简、智、深。

image.png-253.1kB

简就是要确保业务和SLA服务级别,出现问题要及时的响应和维护。

image.png-278.9kB

机器学习主要就是突出智,这个需要大量的数据,故障出现的形态是千奇百怪,对故障的历史数据进行标注,然后机器才能够判断。标注不能完全靠人,也需要通过机器来自动进行标注,而标注的合理性就需要人为进行判断。然后再利用到机器学习上,这样才能真正辅助我们做一些决策。

image.png-212.8kB

基于功能架构、工程师的经验和概率来做到收敛告警事件。
基于规范和分工产生告警事件。
基于数据和模型来提高事件的处理能力。

很多事件有的工程师处理特别快,如果对这个故障不熟悉的人可能花费的时间就很长。这就需要构建一个策略知识库,让其他人来参考,提高事件处理的能力。

image.png-324.1kB

自动化包括智能化,实现的目标就是减少对人的依赖,逐步信任机器,实现机器的自判、自断和自决。

技术都是在不断的进步,AI技术会解决很多的一些需要花费大量人力时间才能解决的事情,但是AI不是一个很纯粹的东西,它也需要结合具体的企业场景和业务,才能产生一个真正可用的东西。

智能运维的终极目标一个是日常工作都能自动完成,另一个是运维人员都能够独立的进行数据分析。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注