InfoQ

新闻

类似Google构架的开源项目Hadoop近获社区关注

作者 Scott Delap 译者 张海龙 发布于 2007年8月17日 上午5时55分

社区
Java
主题
网格计算,
集群与缓存
标签
Hadoop,
弹性计算集群

类似Google构架的开源项目Hadoop 已经存在一年多了,现在正受到来自开发社区的广泛关注。下面是来自Hadoop官网 的消息:

Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现,它使用了Hadoop分布式文件系统(HDFS)。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑,HDFS会为数据块创建多个副本,并放置在群的计算节点中,MapReduce就在数据副本存放的地方进行处理……

Hadoop是由Java编写的,该项目已到得Yahoo的全面支持,项目的领袖Doug Cutting从2006年一月开始已经被Yahoo全职雇用于此项目中。华盛顿大学也从那时开始了一个以Hadoop为基础的分布式计算的课程,课程相关的材料也已发布 在Google Code了,以满足那些对这项技术感兴趣的开发者们。
最近,Yahoo的Jeremy Zawodny提供了 一个Hadoop的状态更新:

在过去的几年里,每家参与建立大规模Web系统的公司都面临着一些相同的基础性挑战……底层架构从来都是一个挑战。你不得不去购 买、并大量安装和管理众多的服务器,即使你使用的是其他人提供的商业硬件平台,你也不得不开发软件对这些任务进行分治处理,并让其保持运行……要建立一个 必要的软件基础结构,我们可以放弃开发自己的技术,这可以认为是一项竞争优势,先赚到钱再说。但我们已经选择了一条稍有不同的路,当认识到有越来越多的公 司和组织的需求都很相似的时候,我们发现了Doug Cutting(开源项目Nutch和Lucene的开创者)的工作,于是我们邀请他加入Yahoo,在新的开源项目Hadoop上继续工作。

Zawodny去年一直工作于提供数据排序的基准评测,在测试中,每一个节点都对相同总和的输入数量进行排序。 假如有20个节点,每个节点有100条记录,那么就有2000个记录需要排序;当有100个节点时,每个节点有100条记录,那就总共有10000条记 录。下面是最近的评测结果:

日期
节点数
耗时(小时)
四月 2006 188 47.9
五月 2006 500 42.0
十一月 2006 20 1.8
十一月 2006 100 3.3
十一月 2006 500 5.2
十一月 2006 900 7.8
七月
2007 20 1.2
七月 2007 100 1.3
七月 2007 500 2.0
七月 2007 900 2.5

Tim O'Reilly找出了 Zawodny所发的帖子,并从中发现了来自于Yahoo的高层支持:

……Yahoo! 已经在一月聘用了Hadoop的创始人Doug Cutting,但Doug在开源大会上的谈论 ,更像是Hadoop的发布会,Yahoo! 也想以此表明Hadoop项目对他们来讲有多么重要。实际上,我还接到David Filo打来的电话,他想确认我是否知道这种支持来自于高层……
…… 为什么Yahoo! 的参与这么重要?首先,这预示一个搜索界第二大的公司认识到开源是在Web 2.0上与一个占统治地位的对手进行竞争的强大武器……支持Hadoop和其它Apache项目不仅仅只是让Yahoo深入到他们可以使用的开源软件项目 中,更会帮助他们恢复在极客(geek)心中的形象……其次,或是同样重要的是,Yahoo! 给了Hadoop一个机会进行规模方面的测试……

John Munsh用一句话总结了 Yahoo的参与:“Hadoop和‘非我发明症(Not-Invented-Here Syndrome)’之反例”。(译者注:John Munsh在这里用“非我发明症”来指Microsoft那种不愿意接受任何协议,标准,或是其他公司开发的软件的态度。它认为不是自己创造的东西就是不 值得信任的。而Yahoo! 却基于竞争对手Google的MapReduce来构造自己的应用,所以这里说是“非我发明症”之反例。)

微软的Sriram Krishnan则从那些 转到类似Hadoop和Amazon EC2这种针对大规模应用并在不断发展的解决方案的创业者和开发人员所面对的问题的角度,对Hadoop提出了反对意见:

Web 2.0的主要价值来自于由众多用户生成的数据,如del.ico.us、Digg、Facebook……它已经超越了任何个人运行大规模的服务器软件的商 业意义,如Gmail、Google Search、Live、Y! Search……放荡不羁的极客们根本就不会去碰那些大规模blob存储(S3,Google文件系统),大规模结构化存储(Google的 Bigtable),还有在这种微架构之上运行代码的工具(MapReduct,Dryad)等等……我也不知道Doug Cutting的这种类似的开源产物在这条路上已经走了多远——也许这就是答案吧……
查看英文原文Open Source Google-Like Infrastructure Project Hadoop Gains Momentum

深度内容

和Google互补的搜索引擎Wolfram|Alpha

Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。

SOA契约成熟度模型

本文说明了所推荐的契约版本管理设计策略是如何与SOA成熟度模型发生联系的。文章目的是为实现版本管理和可组合性提供一个路线图。

数据服务简介

Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。

分块云计算

在本文中,Jimmy Nilsson描述了一种他在过去数年间观察到的一种正在缓慢成长的架构风格,他把这种风格称为“分块云计算”。

豆瓣网技术架构变迁

罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。

融合思想:深入探索S#arp架构

Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。

王雷谈开源以及新兴市场计划

中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。

使用HTML5构建下一代的Web Form

HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。