BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

将Hadoop的计算和存储分开能有效的提升性能

| 作者 谢丽 关注 11 他的粉丝 发布于 2015年12月31日. 估计阅读时间: 4 分钟 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。

2015年,将Hadoop的计算和存储分开成为一个重要的Hadoop主题。大数据解决方案提供商BlueData今年发表过多篇关于这个主题的文章。来自Gartner的Merv Adrian年初也在Twitter上表示,该主题已经成为业内的一个主要议题。近日,BlueData副总裁Anant Chintamaneni回顾了他与EMC大数据解决方案首席技术官Chris Harrold就此议题举办的网络研讨会的内容。

从众心理导致人们将雅虎、Facebook或LinkedIn等早期大数据采用者的大数据实现方式视为实现大数据的唯一方式。大数据生态系统使得Hadoop成为下述内容的代名词:

  • 一大堆装有Hadoop的专用物理服务器;
  • Hadoop的计算和存储位于相同的硬件机器上;
  • Hadoop需要使用直连式存储(DAS)

Anant认为,现在该废弃这些原则了。他给出了一种更好的实现大数据的方式,如下图所示:

新方法的指导思想主要有以下几项内容:

  • Hadoop可以运行在容器或虚拟机上,即可以使用虚拟机或容器作为Hadoop节点。这种软件定义的基础设施可以提供干净的环境,保证部署的可预见性,而且交付速度更快,成本更低。在研讨会上,Chris曾着重说明了Adobe的虚拟化Hadoop部署。借助虚拟化,他们可以快速增加Hadoop的工作节点。另外,所有Hadoop供应商提供的“快速入门”选项都是在虚拟机或容器上运行Hadoop。Netflix已经基于虚拟化Hadoop集群构建出了出色的服务。
  • “数据本地化(data locality)”的概念已过时。数据本地化妨碍了企业采用Hadoop,因为将TB级的数据复制到物理服务器,然后在每次有服务器宕机的时候进行数据平衡/再平衡,操作非常复杂,成本非常高昂。集群规模越大,情况越糟。像雅虎这样的互联网巨头之所以会那样做,是受以前的网络带宽所限。而现在,10Gbps的网络也已很常见。将Hadoop的计算和存储分开还可以简化操作,用户可以分别扩展和管理计算和存储系统。另外,还有一个事实,就是在许多常见的Hadoop场景中,即使计算和存储在一起,Hadoop任务也无法受益于数据本地化。
  • HDFS并不需要本地磁盘,即Hadoop不需要本地直连式存储(DAS)。HDFS更多的是一种分布式文件系统协议,在本地磁盘上运行HDFS只是其中的一种实现方式。现如今,许多公司都拥有TB级的数据,且数据来源多样(音频、视频、文本等)。这些数据存储在共享的存储系统中,如EMC Isilon。BlueData和EMC Isilon提供了HDFS接口,允许将共享存储中的数据提供给Hadoop计算过程,而不需要复制数据。

Anant用BlueData一个客户的测试数据说明了新方法所带来的性能上的提升。图一是本地虚拟化Hadoop集群与物理Hadoop集群的对比:

(图一)

可以看出,虚拟化Hadoop集群的性能比得上或超过了物理Hadoop集群的性能。图二比较了使用共享存储和DAS的虚拟化Hadoop集群:

(图二)

可以看出,企业级NFS的性能要高于基于DAS的HDFS系统。

最后,Anant将网络研讨会的共识总结为以下几点:

  • 大数据是一个旅程:基础设施要经得起未来的挑战
  • 计算和存储分开可以为所有的大数据涉众提供更大的灵活性
  • 不要根据“数据本地化”做大数据基础设施的决策

Anant期待更多的大数据部署使用共享存储,更多的部署使用容器和虚拟机,更多的企业将Hadoop的计算和存储分开。


感谢杜小芳对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者(已满),InfoQ读者交流群(#2)InfoQ好读者)。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT