BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

架构师特刊:Hadoop十年回顾

| 作者 InfoQ中文站 关注 20 他的粉丝 发布于 2016年5月5日 QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!

作者 Kyligence联合创始人兼CTO 李扬

自从2006年Hadoop的缔造者们提交第一行代码已经过去了整整十年。有人说近来Hadoop核心社区活跃度下降,又面临如Spark和Mesos的强大挑战。Hadoop的现状如何,未来又会怎样?

说到Hadoop,有狭义和广义两种理解。狭义指Apache Hadoop开源项目本身,由HDFS、YARN、MapReduce三部分组成的核心。而广义来说,Hadoop生态系统不仅仅是那只黄色的小象,而是以它为中心的整个动物园!经过了十年的风雨锤炼,Hadoop核心已经非常完善,如果它的邮件列表活跃度有所下降,我毫不惊讶。有良好的技术服务,运行稳定,自然不需要来问问题。这反而说明了Hadoop核心社区的成熟和稳定,参考Maven就明白了,不十分活跃,但非常成熟,有广大的用户群体。

Hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准,被世界范围内几乎所有的高科技公司一致采用(Google大概是唯一的例外)。其底层由HDFS和YARN组成集群操作系统,之上有如MapReduce和Spark的运算框架,有如HBase和Phoenix的数据管理,有如Zookeeper和Oozie的协作模块,有如Hive和Kylin的数据分析,有如Storm和Spark Streaming的流式处理,有如Mahout和Spark ML的机器学习,有如Ranger和Eagle的安全监控等等。其覆盖大数据从采集到存储,从运算到分析,从安全到监控,无所不包,无所不有。如此强大的生态系统,已经完成了对大数据技术的事实垄断。试想如果有人要摒弃Hadoop从零做起,如何能抛开与这么多相关技术的合作?即便强大如Spark有一天完全取代了MapReduce,那也只是默默地替换了整个Hadoop拼图中的一块,也还是免不了被潜移默化慢慢融入Hadoop生态圈,成为其中一员。

刚刚结束的Hadoop Summit 2016充分展现了这一点。大会的主办方、赞助商、演讲嘉宾、与会听众,囊括了几乎世界上所有的大数据技术厂商,共襄盛举。在大会上,技术厂商和科研机构的分享也让我们感受到Hadoop今后的发展方向。

  1. 数据正在改变商业世界。大数据不再是象牙塔和实验室里的玩具,它已经能切实地创造商业价值,深切地改变商业世界。零售商通过大数据技术做精准市场预测,洞察物流效率,每年可以节省7000万美元系统开支,营收增长8%,利润增长3%。保险公司通过实时分析司机的驾驶模式,动态计算行驶风险并奖励安全驾驶,带来每年26亿美金的保险金增长,减少4%的理赔损失。类似的变革将在所有的行业中慢慢发生。
  2. HDFS和YARN作为大数据的操作系统已经非常成熟,将来是中间件和上层应用百花齐放的年代。数据流处理方面竞争激烈,Storm、Spark Streaming、Flink、Nifi等互有侧重但又各有缺陷。数据分析方面Hive 2.0想要王者回归,Kylin从预计算角度另辟蹊径。安全领域比如Ranger和Atlas,也是大公司的重点。机器学习持续火热,技术逐渐普及化。
  3. 系统层面。YARN.NEXT试图重新定义Hadoop应用,根据组装描述文件自动适配资源,部署应用到整个集群,而不是仅管理组成应用的每个部件。Tiered HDFS根据数据的特性(比如活跃度)透明地在多种性价比不同的存储介质之间移动数据,从而提高数据存取的效率。极小化软件对运行环境和类库的依赖,为在物联网小微设备上的运行做好准备。
  4. Technoethics(技术伦理学)也是不可回避的话题。大数据和人工智能技术一旦被滥用,将对整个人类社会造成及其可怕的后果,这不是科幻小说里的妄想,而很可能正在我们身边发生。应当立即行动,为技术伦理制定规范。

Hadoop已经走过了第一个黄金十年,看起来正走向第二个黄金的十年。

目录

Hadoop十年解读与发展预测

Hadoop YARN在Hulu的成功实践

专访王峰:Hadoop生态下一代计算引擎streaming和batch的统一

大数据开放平台搭建,难点何在

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT