[关闭]
@lsmn 2018-04-18T17:20:44.000000Z 字数 1519 阅读 2187

Vivint大规模IoT部署的指标收集

IoT Rothko


摘要

Vivint工程团队构建了自己的指标收集平台,用于收集和分析他们部署的设备上的指标。他们之所以编写自己的系统是希望能够只存储聚合数据,并集中精力分析这些数据,这是通过Rothko项目实现的。

正文

Vivint工程团队构建了自己的指标收集平台,用于收集和分析他们部署的设备上的指标。他们之所以编写自己的系统是希望能够只存储聚合数据,并集中精力分析这些数据,这是通过Rothko项目实现的。

Vivint是一家智能家居设备提供商。Rothko的基本设计决策不同于Graphite、OpenTSDB等系统的地方在于,它存储聚合数据,而不是每项服务的数据点。他们这样做是因为他们有意识地对不存储每个数据点和仍然具备精准定位问题的能力进行了权衡。同时,用于统计分析的数据不能丢失此类分析所需要的任何关键特征。

Rothko可以提供指标的总体分布并分析它们。鉴于没有存储单个的指标,团队是否遇到过单个设备需要诊断的情况?InfoQ采访了Vivint软件工程师Jeff Wendling,了解更多情况以及Rothko的架构:

事实上,我们不会存储单个的数据点。这可以通过两个方法解决。一个是,我们可以简单地存储最小值和最大值以及数据来源,我们就是这样做的。那有助于我们发现最显著的异常。另一个是,考虑到每种设备大约每30分钟发送数据,我们有一个“数据流入口(firehose)”,让我们可以接入数据,筛选出特定的指标或设备等等。假如它还是发送,我们通常就可以找出是哪个设备。当然,这两个方法并不能保证我们可以确定问题,但是,我们只需要付出20%的努力就得到了一个廉价而便捷的80%的解决方案,这符合Rothko的原则。

通常,时间序列数据有类似标签这样的元数据,可以存储类似应用程序名或数据中心位置这样的额外属性,在分析过程中可以用它们进行逻辑分组。Vivint的数据也是这样吗?Wendling回复说:

我们只会向上发送一个随机的实例ID,这目前只是一个非结构化的字节切片。理论上讲,你想发送什么,就可以向上发送什么。考虑到我们监控的设备大部分都是客户家居用的廉价设备,它们没有配备任何GPS设备,但是,可以通过IP得出颇为接近的定位。

Rothko的架构中包含一个数据库实现,为每个指标分配数量可配置的平面文件,使用mmap写入和读取。它还包含一个基于Graphite有线协议的指标接收实现,一个近似的分位数略图用于聚合数据,一些API端点用于检索数据、渲染图像,以及一个前端UI,方便人们使用。数据可以从设备安全地发送到Rothko端点。

Wendling说,“我们的设计一直保持可插拔”,因为“有许多相互矛盾的计算标准和不同的工作负载。例如,在内部,我们就有自己的插件,用于从我们自定义的有线协议中读取指标。我们的设计让插件编写很容易,而且使用一个toml文件即可完成配置。甚至是日志和进程内部指标收集都可以轻松替换成任何你想要的东西。”

按照设计,Rothko用来处理大量实例的少数指标。目前,它处理大约5万个指标,使用500MB内存在大约50秒内完成磁盘刷新。据Wendling介绍,刷新每10分钟一次,因此“应该很容易处理50万个指标”。它部署在单个实例上,目前尚没有实现像横向切片这样的扩展策略的需求。

有人问,Vivint的团队是否也使用了什么预警机制,Wendling答复说,他们不那样做,而是要更多地关注控制面板。Rothko是用Go编写的开源项目,托管在Github上

查看英文原文:Metrics Collection from Large Scale IoT Deployments at Vivint

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注