BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Yahoo!开源运行在Hadoop上的Storm——Storm-YARN

| 作者 Boris Lublinsky 关注 1 他的粉丝 ,译者 臧秀涛 关注 4 他的粉丝 发布于 2013年6月20日. 估计阅读时间: 2 分钟 | CNUTCon 了解国内外一线大厂50+智能运维最新实践案例。

Apache Hadoop是大数据处理与批处理的事实标准,而Twitter Storm则很快地成为实现大规模事件处理的一种标准。遗憾的是,直到最近,实现Storm和Hadoop所需要的集群在物理上仍然有所不同。上周,Yahoo!宣布开放运行在Hadoop集群上的Storm——即Storm-YARN的源代码。

据Yahoo!介绍,相对于隔离的集群,实时处理(Storm)和批处理的结合具有很多优势:

  • 提供了巨大的弹性潜力。实时处理的负载一般不恒定,而且是不可预测的。就其本身而言,为满足需求峰值,Storm会需要更多资源。将Storm和批处理搭配使用,Storm需要资源时可以从批处理作业那里窃取,当资源需求下降时再把资源还回去。Storm-YARN为实现这一理念奠定了基础。
  • 很多应用将Storm用于低延时处理,而将Map/Reduce用于批处理,同时,两者之间会共享数据。通过将Storm放到物理上更接近数据源和/或同一流水线中其他组件的地方,可以减少网络传输,进而减少获取数据的总开销。

Storm与YARN的集成利用了Hadoop的新型资源管理器YARN

Storm-on-YARN支持Storm应用利用数以万计的Hadoop计算节点的计算资源。YARN用来根据需求启动Storm应用的主节点——即Nimbus,并支持Nimbus为Storm应用的工作节点(即Supervisor)请求资源。

Storm-YARN提供了标准的Storm配置文件,其中包括YARN的特定参数,支持配置初始启动的Supervisor数及为每个Supervisor分配的容器的内存大小。

此外,为支持Hadoop风格的安全机制,Yahoo!还增强了Storm,支持Storm应用直接访问存储在HDFS和Hbase上的Hadoop数据。

Loraine Lawson介绍:

实时交付信息是Hadoop和其他大数据解决方案更有前景的应用之一。这一点很少被提及,这很遗憾,因为对很多组织而言,这是真正的致胜之道,对我们这些人也很有启示。

Storm实现的实时事件处理,加上Hadoop,再加上实时Hadoop查询,它们的结合让我们离这一愿景又近了一步。

查看英文原文:Yahoo! Open Sources Storm on Hadoop

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT