BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Drill升级成为Apache的顶级项目

| 作者 李士窑 关注 0 他的粉丝 发布于 2014年12月5日. 估计阅读时间: 2 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

Apache Drill是是一个能够对大数据进行交互分析、开源的分布式系统,且基于Google Dremel实现,它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。Drill能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。Drill于2012年8月份由Apache推出,历经两年多的孵化期后,于近日,Apache 基金会宣布Apache Drill升级成为基金会的顶级项目。

Drill项目管理委员会成员Tomer Shiran在Apache博客中评论到:

Drill成为顶级项目是其发展过程中的一个重要里程碑,伴随着用户和和不同社区对Drill的关注,Drill将会为基于Hadoop应用的开发者和BI分析人员的工作带来巨大的变化。

MapR的产品管理总监Tomer Shiran在Apache基金会推出Drill时评论到:

Drill与MapReduce应该是相辅相成的关系,在谷歌有数以千计的工程师每天都在使用Dremel和MapReduce,未来也将会有更多的人使用Drill与MapReduce。

从Drill官方对其架构的介绍中得知,其具有适于实时的分析和快速的应用开发、适于半结构化/嵌套数据的分析、兼容现有的SQL环境和Apache Hive等特征。另外,Drill的核心模块是Drillbit服务,该服务模块包括远程访问子模块、SQL解析器、查询优化器、任务计划执行引擎、存储插件接口(DFS、HBase、Hive等的接口)、分布式缓存模块等几部分,如下图所示:

Drill是基于Dremel而实现的开源项目, 而Dremel是来自Google的一种用来分析大数据信息的方法。Dremel能够帮助Google实现海量数据集的分析处理,如抓取Web文档的分析、Android Market上的应用程序数据信息的跟踪、垃圾邮件的分析等。据谷歌的研究报告显示,Dremel能以PB数量级来进行查询,而且只需几秒钟时间就能完成。


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT