BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

不同实时Hadoop实现之间竞争升温

| 作者 Boris Lublinsky 关注 1 他的粉丝 ,译者 臧秀涛 关注 4 他的粉丝 发布于 2013年2月28日. 估计阅读时间: 2 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

自从Google的Dremel论文发表以来,Hadoop社区已经在尝试围绕Hadoop实现类似功能。首先出现的是OpenDremel,目前它已经是Apache Drill的一部分,而后者已于去年成为Apache孵化项目。之后,也是在去年,Cloudera引入了Impala,目前仍处于beta状态,它还是Cloudera Hadoop发布版——CDH 4.1的一部分。

Stinger Initiative是该领域新的竞争者,由Hortonworks于上周引入Apache的孵化过程,其目标是:

让Hive能在人的响应时间内处理很多用例(也就是5-30秒这一区间范围内的查询)——如大数据的查看、可视化和参数化报表——而无需安装、维护和学习其他工具,这能够为拥有Hive技巧和投资的大型社区带来很多价值。

Hortonworks打算通过以下手段实现该目标:

  • 改进Hive的SQL兼容性,包括支持Hive中没有的SQL类型和‘where’子句中的子查询。
  • 优化Hive的执行计划。
  • 支持新的Hadoop列格式ORCFile(类似于Dremel、Drill和Cloudera的Trevini)。
  • 引入基于YARN的新的运行时框架Tez

Tez是北印度语的“速度(speed)”,该项目还处于等待投票成为Apache孵化项目的阶段。它是:

……一种通用的、高度可定制的框架,用于简化Hadoop中数据处理任务的创建,支持小规模(低延迟)和大规模(高吞吐量)负载。通过提供为一个作业执行复杂DAG(有向无环图)任务的能力,它将MapReduce范型推广为一种更强大的框架,这样Apache Hadoop生态系统中的项目(如Apache Hive、Apache Pig和 Cascading)就能满足人机交互响应时间和PB级规模极端吞吐量的需求了(无疑MapReduce是实现这一点的关键驱动因素)。

当前的三个“实时”Hadoop查询实现——Drill、Impala和现在的Stinger或是已经开源,或是很快就会开源,都将能够利用社区的支持和投入来解决实时Hadoop查询的重要问题。

查看英文原文Competition between Real-time Hadoop Implementations Heats Up

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT