BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

PayPal的Gimel分析平台提供统一的数据API和GSQL

| 作者 Srini Penchikala 关注 34 他的粉丝 ,译者 张卫滨 关注 13 他的粉丝 发布于 2018年4月28日. 估计阅读时间: 5 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

看新闻很累?看技术新闻更累?试试下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料!

PayPal,数据工程师、分析师以及数据科学家会使用各种数据源、计算引擎、 语言和执行模型(流、批处理、交互式)。这样的话,会导致工程师会花费大量的时间管理不同的数据源,进而影响他们的产品的上市时间。

PayPal数据团队开发了名为Gimel的全新分析平台,它会使用一个数据API和SQL访问任意数据存储,并且提供了一个中心化的数据目录。

来自PayPal的Romit Mehta和Deepak Chandramouli在最近的QCon.ai会议介绍了Gimel数据分析平台以及它如何用于商业化数据访问。他们讨论了Gimel的组件:计算平台(Compute Platform)、数据API(Data API)、PCatalog、GSQL和Notebooks,还宣布了该平台的开源版本。

InfoQ与Mehta和Chandramouli讨论了Gimel数据平台以及它对安全、数据版本化的支持,了解了它未来的路线图。

InfoQ:为事务性和分析用例来管理数据目录(PCatalog)会有什么差异吗?

Mehta & Chandramouli:目前的Gimel API和SQL实现专注于分析平台。不管存储类型是Kafka、NoSQL、基于关系型的还是基于文档型的,数据API都是相同的,SQL提供了语言的抽象。在PayPal,我们看到在线/实时系统都有类似的抽象层的需求。我们目前正在为在线系统提供类似的层,这些系统需要亚秒(sub-second)级的响应。

InfoQ:在Gimel平台中,你们是如何处理数据访问的安全性和访问控制的需求的呢?

Mehta & Chandramouli:因为所有的查询都是以登录用户的身份提交到底层系统的,而且所有的查询最终都由这些底层系统来执行,所以已有的安全策略和控制都能得以保持。

除此之外,通过日志系统,Gimel会为每一个查询执行保留日志,其中包括查询本身,不管是否有数据下载至本地均是如此,未来,如果访问机密数据的话,还会为查询添加标签。

在PayPal,Gimel还遵循Ranger策略并与Kerberized集群紧密协作。

InfoQ:你们是如何管理数据存储的版本化的问题呢?

Mehta & Chandramouli:我们与PayPal的存储管理员协作,确保我们的API能够充分支持基础设备团队的所有存储版本。另外,如果存储团队需要新的设施的话,我们会在API中同样将它们纳入进来,这样所有的客户端就能透明地得到该功能的实现。也就是说,不管何时发生版本升级,在大多数场景下客户端都不需要更改他们的代码。

InfoQ:你们能介绍一下GSQL查询语言吗,它与其他的框架有什么差异吗,比如Spark SQL或Neo4j's Cypher

Mehta & Chandramouli:现在,GSQL是一个轻量级的实现,它会拦截用户SQL,在背后会为Gimel数据集(Datasets)生成对应的数据API代码,然后采用与Spark SQL拦截器相同的方式进行传递。长期来看,我们会推动SQL的一些优化,它会从多种存储类型混合/连接(blend/join)数据,也就是连接Kafka、Hive、HBase,并将结果写入到Elastic中。

在路线图方面,除了增值特性和更新之外,团队还为Gimel规划了下面的功能:

  • 查询优化
  • 开源PCatalog(包括元数据服务、发现服务、目录UI)
  • 添加对Python的支持;目前支持Scala
  • 开源添加到Jupyter & Livy中的特性

如果你想要学习Gimel平台的更多知识,或者关于它的特性有什么问题的话,可以参考文档Slack Channel用户论坛开发者论坛。你也可以按照这些指导,抢先尝试一下Gimel的功能。

查看英文原文PayPal's Gimel Analytics Platform Provides Unified Data API and GSQL

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT