BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Spark之后,谁将接手大数据

| 作者 张天雷 关注 4 他的粉丝 发布于 2015年8月31日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache基金会提出了Hadoop平台。该平台的MapReduce框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce刚刚“称霸”大数据不久,Spark就迅速崛起。其超高的性能和易用性很快吸引了业界的注意,并使得很多公司开始放弃MapReduce。据预测,Spark将会在五年以后全面替代MapReduce。由此可见,大数据领域日新月异,技术更迭十分迅速。那么,在Spark之后,什么技术会接手之后的大数据处理呢?接下来,本文就对该问题进行一定的探讨。

作为Apache基金会所开发的分布式处理平台,Hadoop最核心的设计包括HDFS分布式文件系统和分布式计算框架MapReduce。MapReduce一步步完善,终于成为大数据处理中的核心技术。Hadoop也以其低成本、高扩展性、靠可靠性以及靠容错性等优点,成为主流的大数据处理平台。然而,2009年由伯克利大学提出的Spark项目,异军突起。在不到7年之间内,Spark经历了从研究性项目,到Apache基金项目,进而顶级项目的过程。Cloudera社区的领军人物Justin Kestelyn甚至预测,Spark将会在五年后彻底替代MapReduce。而十年之后,MapReduce将会成为业界的回忆。

Kestelyn提到,Spark崛起有着其必然的原因——它存在三个方面的核心优势。

  • 首先,Spark为Scala、Java和Python语言提供了丰富而统一的API接口,使其代码量比MapReduce可减少50%-80%。
  • 其次,Spark为批处理和流处理也提供了统一的API。
  • 最重要的方面是,Spark的性能要大大优于MapReduce。其访问内存数据的速度是MapReduce的100倍,而访问磁盘的速度也是MapReduce的10倍。由此可见,Spark替代MapReduce已成为必然趋势。

那么,在日新月异的大数据领域,Spark又能主导分布式计算多久呢?之后,又是那种技术替代Spark呢?MongoDB的副总裁Kelly Stirman曾表示,大数据领域的上一次飞跃源于对昂贵的计算和存储的优化,而其下一次变革肯定与相关目前昂贵的工程人员相关。未来,更易上手的技术将会竞争力越强,更易吸引广大用户的注意。Databricks的联合创始人Ion Stoica表示,Spark的成功就与其易用性密切相关。Adobe公司移动应用方面的副总裁Matt Asay也认为,易用性必然会成为未来大数据领域竞争的热点。那么,能够在未来主导大数据处理的技术也必然是在易用性方面做的最好的一个。


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者)。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT