@levinzhang 2018-04-20T22:21:05.000000Z 字数 1758 阅读 1180

PayPal的Gimel分析平台提供统一的数据API和GSQL

Srini Penchikala

摘要：

来自PayPal的Romit Mehta和Deepak Chandramouli在最近的QCon.ai会议上介绍了Gimel数据分析平台以及它如何用于商业化数据访问。InfoQ与Mehta和Chandramouli讨论了该数据平台以及它对安全等领域的支持。

在PayPal，数据工程师、分析师以及数据科学家会使用各种数据源、计算引擎、语言和执行模型（流、批处理、交互式）。这样的话，会导致工程师会花费大量的时间管理不同的数据源，进而影响他们的产品的上市时间。

PayPal数据团队开发了名为Gimel的全新分析平台，它会使用一个数据API和SQL访问任意数据存储，并且提供了一个中心化的数据目录。

来自PayPal的Romit Mehta和Deepak Chandramouli在最近的QCon.ai会议上介绍了Gimel数据分析平台以及它如何用于商业化数据访问。他们讨论了Gimel的组件：计算平台（Compute Platform）、数据API（Data API）、PCatalog、GSQL和Notebooks，还宣布了该平台的开源版本。

InfoQ与Mehta和Chandramouli讨论了Gimel数据平台以及它对安全、数据版本化的支持，了解了它未来的路线图。

InfoQ：为事务性和分析用例来管理数据目录（PCatalog）会有什么差异吗？

Mehta & Chandramouli：目前的Gimel API和SQL实现专注于分析平台。不管存储类型是Kafka、NoSQL、基于关系型的还是基于文档型的，数据API都是相同的，SQL提供了语言的抽象。在PayPal，我们看到在线/实时系统都有类似的抽象层的需求。我们目前正在为在线系统提供类似的层，这些系统需要亚秒（sub-second）级的响应。

InfoQ：在Gimel平台中，你们是如何处理数据访问的安全性和访问控制的需求的呢？

Mehta & Chandramouli：因为所有的查询都是以登录用户的身份提交到底层系统的，而且所有的查询最终都由这些底层系统来执行，所以已有的安全策略和控制都能得以保持。

除此之外，通过日志系统，Gimel会为每一个查询执行保留日志，其中包括查询本身，不管是否有数据下载至本地均是如此，未来，如果访问机密数据的话，还会为查询添加标签。

在PayPal，Gimel还遵循Ranger策略并与Kerberized集群紧密协作。

InfoQ：你们是如何管理数据存储的版本化的问题呢？

Mehta & Chandramouli：我们与PayPal的存储管理员协作，确保我们的API能够充分支持基础设备团队的所有存储版本。另外，如果存储团队需要新的设施的话，我们会在API中同样将它们纳入进来，这样所有的客户端就能透明地得到该功能的实现。也就是说，不管何时发生版本升级，在大多数场景下客户端都不需要更改他们的代码。

InfoQ：你们能介绍一下GSQL查询语言吗，它与其他的框架有什么差异吗，比如Spark SQL或Neo4j's Cypher？

Mehta & Chandramouli：现在，GSQL是一个轻量级的实现，它会拦截用户SQL，在背后会为Gimel数据集（Datasets）生成对应的数据API代码，然后采用与Spark SQL拦截器相同的方式进行传递。长期来看，我们会推动SQL的一些优化，它会从多种存储类型混合/连接（blend/join）数据，也就是连接Kafka、Hive、HBase，并将结果写入到Elastic中。

在路线图方面，除了增值特性和更新之外，团队还为Gimel规划了下面的功能：

查询优化
开源PCatalog（包括元数据服务、发现服务、目录UI）
添加对Python的支持；目前支持Scala
开源添加到Jupyter & Livy中的特性

如果你想要学习Gimel平台的更多知识，或者关于它的特性有什么问题的话，可以参考文档、Slack Channel、用户论坛和开发者论坛。你也可以按照这些指导，抢先尝试一下Gimel的功能。

查看英文原文：PayPal's Gimel Analytics Platform Provides Unified Data API and GSQL

PayPal的Gimel分析平台提供统一的数据API和GSQL

摘要：

内容目录

选择主题