[关闭]
@Rays 2018-06-23T12:49:07.000000Z 字数 3245 阅读 1795

OpsRamp推出AIOps推理引擎

架构&设计


摘要: 基于SaaS的IT运管平台提供商OpsRamp宣布OpsRamp 5.0发布。新版本的主要特性是在报警和事件关联中使用了AIOps推理引擎,还添加了一种实现云可见性的仪表盘。

作者: Helen Beal

正文:

基于SaaS的IT运管平台提供商OpsRamp宣布OpsRamp 5.0发布。新版本的主要特性是在报警和事件关联中使用了人工智能IT运维(AIOps,Artificial Intelligence for IT Operations)推理引擎。此外,新版本还添加了一种实现多云可见性的仪表盘。

OpsRamp 5.0提供了三类组件,分别用于管理混合IT环境、多云费用支出情况和云开销趋势。全局资产组件显示了IT资产在各个数据中心及云环境中的地理分布情况;云费用支出查看组件展示了公有云的最新消费情况,并可按云账户、客户属性等给出标准划分;云开销趋势组件展示了公有云开销随时间变化的情况,并支持IT团队按资源类型、客户属性等标准查看开销的发展趋势。新版本还给出了其它一些改进,其中包括一个可定制报告的新特性。该特性使得IT团队可以对运维数据做交叉分析,以洞悉服务映射(service map)的运行情况,并做出重新设计。服务映射实现了IT服务与其底层工作负载间的可视性,对IT架构的占用情况做出组织、可视化并监控。

此外,新版本的OpsRamp扩展了对IaaS和PaaS服务的管理,提供了46个Microsoft Azure集成、28个AWS集成和15个Google Cloud Platform集成。新集成包括用于混合云监控的Google Stackdriver、用于提高服务交付的ManageEngine ServiceDesk Plus,以及用于加速旧有的ITOM套件迁移到现代平台的Micro Focus Operations Manager

为进一步了解新版本,InfoQ采访了OpsRamp的VP工程师Bhanu Singh

InfoQ:是否可使用OpsRamp替代现有的工具,例如Cherwell、ServiceNow和Jira Service Desk等?如果可替代,那么OpsRamp还提供了哪些独到特性?如果不能替代,那么OpsRamp是否可与上述工具集成?如何集成?

Bhanu Singh:很多企业为了提升服务交付质量,已在ServiceNow、Cherwell和Atlassian Jira等IT服务管理工具上做了一些投资。尽管这些工具提供了用户所需的所有意外事件管理(IM,Incident management)功能,但是它们最主要的问题在于缺失了对用户日常IT操作的高效管理能力。OpsRamp交付了一种用于可视化和控制用户业务关键IT服务及底层基础设施负载的IT操作平台。为改进根本原因分析(RCA,Root Cause Analysis)和平均解决问题时间(MTTR,Mean Time To Resolution),OpsRamp已与一些业界领先的IM工具进行了集成。OpsRamp可提供对整个混合架构中意外事件的整体视图,并可将特定事件与实际业务影响相关联。OpsRamp实现了将意外事件发生前执行的操作活动与ServiceNow或Cherwell等IM系统相关联。

InfoQ:OpsRamp工具是如何访问云费用支出情况数据的?

Singh:多云可视性仪表盘提供了标准的API,实现从一些业界领先的云服务提供商(例如AWS、Azure和Google)处汲取数据。我们进而应用了适当的智能算法,抽取出云费用支出的深层情况。由此,企业可以知悉其在云提供商、业务单元、IT服务乃至整个企业上的开销趋势。

InfoQ:AIOps推理引擎关注的是哪些事件和报警?

Singh:OpsRamp平台使用原生的和外部的插桩(instrumentation),实现跨应用和架构采集数据和度量。为展现其中的关联和意义所在,AIOps推理引擎使用拓扑和聚类关联模型,从获取的各类度量中聚合事件和报警。举个例子,如果是网络设备的操作影响了用户IT服务的可用性,那么推理引擎会对这些关系做出关联,抽取出定位致病根源最需要的信号。

InfoQ:OpsRamp如何与IT运维专业人员可能使用的已有报警工具一并工作?在一些云服务提供商的平台上是否已经如此?Dynatrace、AppDynamics或是New Relic?

Singh:为实现架构和应用监控、事件管理和报警管理,许多企业的IT专业人士使用了不同的管理工具。OpsRamp的任务是帮助IT运维团队控制管理这些工具中的混乱情况,并对团队所负责的应用和服务提供场景可见性,这正是团队所需要的。我们已经构建了OpsRamp与一些常用工具的集成,使IT团队可以在同一处查看跨不同工具的日志、度量、报警、事件和任务单,而无需登录到多个控制台。

InfoQ:该解决方案如何有助于缓解警报疲劳问题?

Singh:OpsRamp可以自动关联源自同一问题的报警,并从中建立一次推理。用户无需知悉、调查并响应每次报警。通过将相关的报警关联为一次推理,实现将多个报警按单一事件进行管理,进而更快地得以检测和修复。OpsRamp的集成框架使IT团队可以将来自不同故障点工具的报警整合为单一事实源(SSOT,Single Source of Truth),这有助于降低报警噪声,缓解报警疲劳问题。

InfoQ:对于在架构上运行的应用,该工具能为用户报告哪些情况?

Singh:OpsRamp为多种企业应用提供了预制的监控模板。用户可通过OpsRamp监控一些常用的业务应用的运行状况、正常运行时间和性能、进程、文件和日志,例如Active Directory,Exchange,SharePoint、Dynamics,以及Cassandra、Redis、MongoDB、SQL Server和MySQL等数据库,还有Apache、Docker、Kafka、RabbitMQ和Tomcat等基础架构中间件。 IT服务通过服务映射链接到底层基础设施。服务映射用于定义IT服务与一组事务、应用、虚拟服务器、网络设备和云工作负载的依赖关系。对于业务部门,暴露相关的服务映射即可使业务部门实现对自身重要服务的监控。

InfoQ:Micro Focus是如何为迁移提供帮助的?

Singh:2018年4月,OpsRamp对使用Micro Focus Operations Manager i(OMi)和Micro Focus Operations Bridge(OpsBridge)做事件关联的企业提供了一种自定义的迁移计划。5.0版本中进一步深化了与Micro Focus OMi的集成,支持用户在OpsRamp仪表板按报警查看OMi事件。对于那些希望加速从传统ITOM套件向OpsRamp等现代平台迁移的企业,非常适合采用Micro Focus OMi集成。

InfoQ:您是如何定义“现代”ITOM套件的?

Singh:对于OpsRamp而言,我们认为一个“现代”ITOM套件应该具有以下五个特征:

  1. 实现对混合多云IT资产的全面可见性、合规性和透明度,并对物理的、虚拟的和云工作负载提供的统一视图。
  2. 能够扩展对基础架构的管理,了解关键IT服务的依赖关系。通过提供整个企业IT业务视图,提升企业对运行态势的感知能力。
  3. 具有迅速监控、管理和解决IT意外事件的智能。对所有事件给出最优可用性和性能的上下文警报信息。
  4. 具有基于策略的管理功能,可大规模地自动执行日常任务、降低重复性任务的手动工作量,并且无论对于传统的还是现代的工作负载,均可提高执行一致性。
  5. 能够在同一平台上无缝地关联操作和服务管理流程,推动提高客户体验、员工生产力和IT自动化。

详细信息,可参阅OpsRamp在2018年5月对Unified Service Discovery的声明

查看英文原文: OpsRamp Introduces an AIOps Inference Engine

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注