@cnbeining 2017-08-31T07:21:04.000000Z 字数 1814 阅读 1158

如何理解分布式系统的指标和警报

DevOps

note：作者太难找我把稿子洗了一下理论上不会有很大的版权问题当然有点缺德如果拿到版权就洗回去拿不到就这么发吧

摘要：分布式系统的指标和警报允许运维人员检测分布式系统的故障，并帮助他们快速诊断出错位置。John Corrigan在他的文章中对分布式系统的指标和警报进行了提纲挈领的分析。

正文：

John Corrigan在他的文章中对分布式系统的指标和警报进行了提纲挈领的分析。

分布式系统的指标和警报允许运维人员检测分布式系统的故障，并帮助他们快速诊断出错位置。

指标

指标是按特定时间间隔收集的系统信息；指标存储后可以进一步处理，例如进行可视化或触发警报等。

作者认为，指标可以分为3类：输入指标、输出指标和过程指标。

作者指出，有时指标间没有明确的界限：以HTTP代码为例，2xx和5xx代码是输出指标，4xx一般是输入指标，但是如果错误是对之前请求的数据进行操作后造成的，也可以当做输出指标。3xx的类别完全取决于应用程序。在多个模块、组件、服务等组成的大型系统中，每个模块都可以有自己的3种指标。

作者认为，各个指标的用途不同：输出指标代表问题是否存在以及确定问题的严重程度；输入指标可以指出问题的位置是本系统还是上游系统；一旦确定故障点，可以通过过程指标深入了解问题。

作者强调，所有的指标都应该定期汇总，而且应当可以快速反映问题。好的指标在运行正常时不会出现波动，在出现问题时应反应灵敏。

如果出现故障，系统应该报警：某个指标出现了异常的变化。

作者对警报进行了分级：

作者认为，对警报相对应的反应是：

作者总结道，整个系统需要至少一个输出指标，最好是每分钟赚取利润的近似值：例如，每分钟投放的广告、每分钟的页面展示数、每分钟的流量、每小时上传的图片等。在响应中包含用时也是好办法。

作者对数据的理解是：对于汇总指标，例如某些值的总和或平均值以及客户请求的平均延迟，应该生成数个指标。记得要记录指标包含的数据点数量，也可以考虑包括分位数（p0、p25、p50、p75、p90、p99和p100等）。有时，众数和中位数也有用。如果输入值呈正态分布，指标应包括标准差。

作者指出，对于SEV 1和SEV 2事件应当提供可预见的警报：

指标干净，不会被随机噪声淹没。在更长的时间内进行平均处理有可能可以降低噪声，也可以动态修改平均值；
影响显著，不能由噪音引起；
必须人为干预才能恢复，对于短时间自动恢复的问题不需要呼叫人员；
和故障强相关的时序指标，例如，MySQL的历史列表不断加长在几个小时后几乎一定会演变为故障。指标与故障的相关性必须极强，以免造成告警疲劳。在SEV 2 的情况下，如果故障概率是50%而工程师在睡觉，那么可以等到故障发生时再进行呼叫。

作者提醒，如果某台主机出现负载、CPU占用、磁盘空间、内存空间等指标报警，考虑是否出现架构弱点：不要为此设置警报，在此之前就把冗余和灾备做好。