BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Spark,Storm和实时分析

| 作者 Alex Giamas 关注 9 他的粉丝 ,译者 马连浩 关注 0 他的粉丝 发布于 2014年6月20日. 估计阅读时间: 2 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

随着过去几年的信息量爆炸式增长,大数据分析一直在进步。Hadoop 绝对是首选大数据分析和计算平台。随着数据卷,多样性和速度的增长,作为批处理框架的Hadoop已不能满足实时分析的要求。

Apache Spark背后公司,Databricks最近提出追加1400万美元加速Spark和Shark的研发。Spark是用Scala写的大规模数据处理引擎,而Shark是Spark的Hive兼容变体。

同Spark类似,通过提供事件处理和分布式计算能力,Storm 目标也是改变Hadoop批处理特性。通过在有向图中设计拓扑变换,架构师可以完成任意的复杂计算,一次一个变换。

Nathan Marz 利用一线的经验,提出了lambda架构模式来解决这个基础架构问题。Lambda架构的体系结构包括一个服务层,它会从批处理层获取经常更新的信息,一个速度层,用于计算实时分析来弥补缓慢的批处理层。基本上,Hadoop是以批进行计算分析,在批次之间的运行,速度层通过以流的形式检查事件来增量更新指标。

Spark和Storm在Hadoop集群中进行操作,访问Hadoop存储。Storm-YARN是Storm和Hadoop融合体的雅虎开源实现。Spark为Hadoop提供本地集成。Hadoop集成是利用YARN (NextGen MapReduce)获得的。整合实时分析和基于Hadoop的系统,允许通过计算弹性更好地利用集群资源,在同一个集群意味着网络传输量最小。

在商业支持方面,Cloudera已经宣布支持Spark和CDH (Cloudera包含Apache Hadoop的版本)。在2014上半年, hortonworks计划在HDP (hortonworks数据平台)整合Apache Storm。

查看英文原文:Spark, Storm and Real Time Analytics


感谢张龙对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ)或者腾讯微博(@InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

这么水的文章,还是翻译的,也能刊登? by 包峰 张

这么水的文章,还是翻译的,也能刊登?

Re: 这么水的文章,还是翻译的,也能刊登? by Suo Filix

关键还进了top5
滚滚长江都是水~~~~~

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

2 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT