BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

专访Saumitra Buragohain : Hortonworks数据平台3.0

| 作者 Rags Srinivas 关注 11 他的粉丝 ,译者 姚佳灵 关注 0 他的粉丝 发布于 2018年7月24日. 估计阅读时间: 8 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

最近,基于Hadoop 3.1的Hortonworks数据平台(HDP)3.0正式发布了,它包含容器化、支持GPU、纠删码和Namenode Federation。企业功能包括利用HDP 3.0默认安装的Apache Ranger和Apache Atlas的可信数据湖。该版本还去掉了一些组件,如:Apache Falcon、Apache Mahout、Apache Flume和Apache Hue,同时Apache Slider功能已经融入了Apache YARN。

InfoQ就Hadoop的总体情况,特别是HDP 3.0采访了Hortonworks的产品管理高级总监Saumitra Buragohain。

InfoQ:鉴于Spark、Kafka和其他大数据平台的成功,Hadoop是否已经过时了?总体上Hadoop特别是HDP 3.0企业仍有怎样的相关性,为什么开发人员要关注它们?

Buragohain:Hadoop已经不再是10年前主要是跟存储层(Apache HDFS)和工作负载(MapReduce)有关的Hadoop了。我们现在处在工业4.0革命的前沿,Hadoop大数据栈已经发展到包含实时数据库(由Apache Hive 3.0提供支持)、机器学习和深度学习平台(Apache Spark和Apache TensorFlow)、流处理(Apache Kafka和Apache Storm)、运营数据存储(Apache Phoenix和Apache HBase)。请继续关注我们的HDP 3.0 博客系列!HDP 3.0 能够自有部署(on-prem),也可以部署于所有主要的云供应商(亚马逊、Azure和谷歌云)。

InfoQ:HDP 3.0 的实时数据库是否旨在为交互式查询提供类似Spark的功能?您能否详细谈谈实现,提供一些技术细节?它如何能够帮助那些不需要大量编程的数据科学家?

Buragohain:实时数据库由Apache Hive 3.0和Apache Druid提供支持,并允许单个SQL层用于批处理和历史数据集。Druid允许创建OLAP cubing,以便我们能够实时查询大型数据集。在HDP 3.0中特别要强调的Apache Hive特性包括:

用于LLAP的工作负载管理:您现在能够在多租户环境中运行LLAP而无需担心资源竞争。

ACID v2和ACID默认打开:我们正在发布ACID v2。随着存储类型和执行引擎上性能的改进,与非ACID表相比,我们看到了相同或更好的性能。因此,我们默认启用ACID并且为数据更新提供完全的支持。

用于Spark的Hive仓库连接器:Hive仓库连接器允许您把Spark应用和Hive数据仓库连接在一起。连接器自动处理ACID表。

物化视图导航:Hive的查询引擎现在支持物化视图。该查询将在物化视图可用时自动使用它们以加速查询。

信息架构:Hive现在直接通过Hive SQL接口公开数据库的元数据(表、列等等)。

JDBC存储连接器:您现在能够映射任何JDBC。

HDP 3.0中特别值得留意的Druid功能包括:

Kafka – Druid摄入:您现在能够将Kafka主题映射到Druid表中。事件将被自动摄入并可用于近乎实时的查询。

InfoQ:到处都是容器。请谈谈在HDP 3.0中如何利用容器?

Buragohain:YARN一直在内存和CPU粒度上支持本机容器。我们正在扩展该模型以支持Docker容器,并在内存和CPU之上添加了GPU支持。这意味着,现在我能够把我的应用程序(如Spark)和诸如Python(无论是版本2.7还是版本3.0)及不同的Python库这样的依赖项打包在一起,并在与其他租户共享的HDP 3.0集群中隔离运行。这意味着,我也能够利用GPU池特性,在YARN上运行Docker化TensorFlow 1.8 。这也意味着,我能够解除和转移第三方工作负载,并在HDP 3.0上运行它们。因此,这就是HDP 3.0的强大功能,我们已经从10年前的Hadoop 1.0发展到现在。

InfoQ:深度学习是另一种趋势科技,并且看起来,在HDP 3.0和机器学习之间的协同作用增加了。您能否谈谈HDP和深度学习的使用?

Buragohain:当然可以。多年来,我们一直将Spark作为HDP栈的核心组件,这是HDP在客户安装基础上最大的工作负载之一。现在,我们正在扩展到深度学习框架,支持诸如GPU池/隔离这样的功能,从而让昂贵的GPU可以成为多个数据科学家共享的资源。正如上面所提到的,我们也支持容器化工作负载,因此,我能够利用YARN GPU池和存储在HDP 3.0数据存储层(或云存储中,如果HDP 3.0部署在云中)的训练数据,运行容器化TensorFlow 1.8来训练深度学习模型。您还能够观看我们的主题演示,那是在DataWorks峰会上,我们用HDP 3.0技术训练了一辆自动驾驶汽车(1:10的比例)。

InfoQ:纠删码是Hadoop 3.0的一部分。您能否谈谈它是如何实现的?HDP 3.0是否有其他调整?

Buragohain:纠删码本质上是跨节点的RAID。就像在企业存储行业中,供应商和客户已经采用了RAID6来支持RAID10(镜像),我们正在对Hadoop数据存储(Apache HDFS)进行类似的转变。我们把数据分成6个分片,并创建了3个奇偶校验分片,而不是为同样的数据创建2个相同的备份。这9个分片现在存储在9个节点中。因此,如果有3个节点宕机,我们将有6个分片(数据或奇偶校验),并且能够构建该数据。因此,这就是我们如何提供与3副本方法相同的故障恢复能力,同时将存储足迹减少一半。

我们默认使用副本方法。客户将需要配置一个目录以让纠删码编码,我们可以选择多个纠删码Reed Solomon编码:RS(6,3);RS(10,4);RS(3,2)。然后,任何进入该目录的数据是经过纠删码编码的。我们最初支持对冷数据的纠删码编码,但是,我们正在提供可选的英特尔存储加速库作为HDP 3.0实用程序的一部分以实现可选的硬件加速。

InfoQ:除了Hadoop 3.0提供的特性之外,HDP 3.0增加了什么?HDP 3.0及更高版本的路线图是什么?

Buragohain:请继续关注我们的博客。HDP 3.0 最近正式发布了,我们的发布说明详细描述了这些特性(跨实时数据库、流处理、机器学习和深度学习平台等等)。最后,我们在工具箱里提供了所有的工具,以便客户选取(可以与单个工作负载供应商比较一下)。我们正在对HDP进行长期投资,在2019年,我们将有更多令人兴奋的更新!

HDP 3.0的发布说明可以从HDP 3.0发布说明页面下载。

查看英文原文:Q&A with Saumitra Buragohain on Hortonworks Data Platform 3.0

感谢冬雨对本文的审校。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT