@levinzhang
2018-04-21T06:21:05.000000Z
字数 1758
阅读 587
by
来自PayPal的Romit Mehta和Deepak Chandramouli在最近的QCon.ai会议上介绍了Gimel数据分析平台以及它如何用于商业化数据访问。InfoQ与Mehta和Chandramouli讨论了该数据平台以及它对安全等领域的支持。
在PayPal,数据工程师、分析师以及数据科学家会使用各种数据源、计算引擎、 语言和执行模型(流、批处理、交互式)。这样的话,会导致工程师会花费大量的时间管理不同的数据源,进而影响他们的产品的上市时间。
PayPal数据团队开发了名为Gimel的全新分析平台,它会使用一个数据API和SQL访问任意数据存储,并且提供了一个中心化的数据目录。
来自PayPal的Romit Mehta和Deepak Chandramouli在最近的QCon.ai会议上介绍了Gimel数据分析平台以及它如何用于商业化数据访问。他们讨论了Gimel的组件:计算平台(Compute Platform)、数据API(Data API)、PCatalog、GSQL和Notebooks,还宣布了该平台的开源版本。
InfoQ与Mehta和Chandramouli讨论了Gimel数据平台以及它对安全、数据版本化的支持,了解了它未来的路线图。
InfoQ:为事务性和分析用例来管理数据目录(PCatalog)会有什么差异吗?
Mehta & Chandramouli:目前的Gimel API和SQL实现专注于分析平台。不管存储类型是Kafka、NoSQL、基于关系型的还是基于文档型的,数据API都是相同的,SQL提供了语言的抽象。在PayPal,我们看到在线/实时系统都有类似的抽象层的需求。我们目前正在为在线系统提供类似的层,这些系统需要亚秒(sub-second)级的响应。
InfoQ:在Gimel平台中,你们是如何处理数据访问的安全性和访问控制的需求的呢?
Mehta & Chandramouli:因为所有的查询都是以登录用户的身份提交到底层系统的,而且所有的查询最终都由这些底层系统来执行,所以已有的安全策略和控制都能得以保持。
除此之外,通过日志系统,Gimel会为每一个查询执行保留日志,其中包括查询本身,不管是否有数据下载至本地均是如此,未来,如果访问机密数据的话,还会为查询添加标签。
在PayPal,Gimel还遵循Ranger策略并与Kerberized集群紧密协作。
InfoQ:你们是如何管理数据存储的版本化的问题呢?
Mehta & Chandramouli:我们与PayPal的存储管理员协作,确保我们的API能够充分支持基础设备团队的所有存储版本。另外,如果存储团队需要新的设施的话,我们会在API中同样将它们纳入进来,这样所有的客户端就能透明地得到该功能的实现。也就是说,不管何时发生版本升级,在大多数场景下客户端都不需要更改他们的代码。
InfoQ:你们能介绍一下GSQL查询语言吗,它与其他的框架有什么差异吗,比如Spark SQL或Neo4j's Cypher?
Mehta & Chandramouli:现在,GSQL是一个轻量级的实现,它会拦截用户SQL,在背后会为Gimel数据集(Datasets)生成对应的数据API代码,然后采用与Spark SQL拦截器相同的方式进行传递。长期来看,我们会推动SQL的一些优化,它会从多种存储类型混合/连接(blend/join)数据,也就是连接Kafka、Hive、HBase,并将结果写入到Elastic中。
在路线图方面,除了增值特性和更新之外,团队还为Gimel规划了下面的功能:
如果你想要学习Gimel平台的更多知识,或者关于它的特性有什么问题的话,可以参考文档、Slack Channel、用户论坛和开发者论坛。你也可以按照这些指导,抢先尝试一下Gimel的功能。
查看英文原文:PayPal's Gimel Analytics Platform Provides Unified Data API and GSQL