InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

类似Google构架的开源项目Hadoop近获社区关注

作者 Scott Delap 译者 张海龙 发布于 2007年8月17日

领域
语言 & 开发,
架构 & 设计,
运维 & 基础架构,
企业架构
主题
网格计算 ,
Java ,
集群与缓存
标签
Hadoop ,
弹性计算集群

类似Google构架的开源项目Hadoop 已经存在一年多了,现在正受到来自开发社区的广泛关注。下面是来自Hadoop官网 的消息:

Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现,它使用了Hadoop分布式文件系统(HDFS)。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑,HDFS会为数据块创建多个副本,并放置在群的计算节点中,MapReduce就在数据副本存放的地方进行处理……

Hadoop是由Java编写的,该项目已到得Yahoo的全面支持,项目的领袖Doug Cutting从2006年一月开始已经被Yahoo全职雇用于此项目中。华盛顿大学也从那时开始了一个以Hadoop为基础的分布式计算的课程,课程相关的材料也已发布 在Google Code了,以满足那些对这项技术感兴趣的开发者们。
最近,Yahoo的Jeremy Zawodny提供了 一个Hadoop的状态更新:

在过去的几年里,每家参与建立大规模Web系统的公司都面临着一些相同的基础性挑战……底层架构从来都是一个挑战。你不得不去购 买、并大量安装和管理众多的服务器,即使你使用的是其他人提供的商业硬件平台,你也不得不开发软件对这些任务进行分治处理,并让其保持运行……要建立一个 必要的软件基础结构,我们可以放弃开发自己的技术,这可以认为是一项竞争优势,先赚到钱再说。但我们已经选择了一条稍有不同的路,当认识到有越来越多的公 司和组织的需求都很相似的时候,我们发现了Doug Cutting(开源项目Nutch和Lucene的开创者)的工作,于是我们邀请他加入Yahoo,在新的开源项目Hadoop上继续工作。

Zawodny去年一直工作于提供数据排序的基准评测,在测试中,每一个节点都对相同总和的输入数量进行排序。 假如有20个节点,每个节点有100条记录,那么就有2000个记录需要排序;当有100个节点时,每个节点有100条记录,那就总共有10000条记 录。下面是最近的评测结果:

日期
节点数
耗时(小时)
四月 2006 188 47.9
五月 2006 500 42.0
十一月 2006 20 1.8
十一月 2006 100 3.3
十一月 2006 500 5.2
十一月 2006 900 7.8
七月
2007 20 1.2
七月 2007 100 1.3
七月 2007 500 2.0
七月 2007 900 2.5

Tim O'Reilly找出了 Zawodny所发的帖子,并从中发现了来自于Yahoo的高层支持:

……Yahoo! 已经在一月聘用了Hadoop的创始人Doug Cutting,但Doug在开源大会上的谈论 ,更像是Hadoop的发布会,Yahoo! 也想以此表明Hadoop项目对他们来讲有多么重要。实际上,我还接到David Filo打来的电话,他想确认我是否知道这种支持来自于高层……
…… 为什么Yahoo! 的参与这么重要?首先,这预示一个搜索界第二大的公司认识到开源是在Web 2.0上与一个占统治地位的对手进行竞争的强大武器……支持Hadoop和其它Apache项目不仅仅只是让Yahoo深入到他们可以使用的开源软件项目 中,更会帮助他们恢复在极客(geek)心中的形象……其次,或是同样重要的是,Yahoo! 给了Hadoop一个机会进行规模方面的测试……

John Munsh用一句话总结了 Yahoo的参与:“Hadoop和‘非我发明症(Not-Invented-Here Syndrome)’之反例”。(译者注:John Munsh在这里用“非我发明症”来指Microsoft那种不愿意接受任何协议,标准,或是其他公司开发的软件的态度。它认为不是自己创造的东西就是不 值得信任的。而Yahoo! 却基于竞争对手Google的MapReduce来构造自己的应用,所以这里说是“非我发明症”之反例。)

微软的Sriram Krishnan则从那些 转到类似Hadoop和Amazon EC2这种针对大规模应用并在不断发展的解决方案的创业者和开发人员所面对的问题的角度,对Hadoop提出了反对意见:

Web 2.0的主要价值来自于由众多用户生成的数据,如del.ico.us、Digg、Facebook……它已经超越了任何个人运行大规模的服务器软件的商 业意义,如Gmail、Google Search、Live、Y! Search……放荡不羁的极客们根本就不会去碰那些大规模blob存储(S3,Google文件系统),大规模结构化存储(Google的 Bigtable),还有在这种微架构之上运行代码的工具(MapReduct,Dryad)等等……我也不知道Doug Cutting的这种类似的开源产物在这条路上已经走了多远——也许这就是答案吧……
查看英文原文Open Source Google-Like Infrastructure Project Hadoop Gains Momentum

深度内容

大规模视频网站的计费与流量管理

本次分享将会就大规模视频网站的计费与流量管理这个话题,从操作层面细细进行讲解和分析,为系统工程师们揭示平日里我们没有关心的另一些内容。同时也希望本次分享能揭示行业中的一些“潜规则”,让互联网行业的流量与带宽管理更为开放与简洁。
本次演讲视频录制于QCon杭州2011

专访Jeffrey Richter:Windows 8是微软的重中之重

Jeffrey Richter以其多本Windows核心技术的经典著作而闻名,同时,他深入掌握微软的.NET等一系列核心技术,2012年1月,Jeffrey Richter在北京接受了InfoQ中文站的专访,谈到Windows 8和WinRT编程,并就异步编程、Windows编程中的可扩展性、性能和安全性方面给出自己的建议。

应用云平台的可用性——从新浪SAE看云平台设计

云计算平台的可用性,相比传统互联网服务而言,更加复杂和困难,也更具有挑战性。本文借助新浪SAE云平台为读者讲述了云平台可用性的定义、如何打造高可用的平台,以及对云计算的用户提出了建议。

JVM定制改进 @ 淘宝

淘宝高度重视Java平台的健康发展,组建了一个团队专注于Java平台的底层部分的性能、功能与稳定性改进;工作主要基于OpenJDK中的HotSpot VM开展,其中一些通用的功能随后也会逐渐反馈给OpenJDK社区。希望能与使用Java平台开发应用的大家交流经验。
本次演讲视频录制于QCon杭州2011

"伤得起"的云计算应用——对云端应用之架构的思考

2011年4月21日至22日是值得云计算从业者纪念的日子。Amazon的IaaS服务出现故障,导致许多商业网站的服务中断,影响非常严重。作为云计算用户,我们需要思考的是,如何保证即便在云服务不可用的情况,我们的应用架构仍然能够屹立不倒?本文正是站在云计算用户的角度试图探讨这一问题。

让交付的速度跟上思考的速度

12人的技术团队,4组刀片服务器,每月20亿的访问量,每日1次准时部署,99.9%的可用性。这可能吗?当然。想知道如何做的吗?百姓网将与您分享他们在DevOps实践过程中的经验和技巧。
本次演讲视频录制于QCon杭州2011

架构之路——穿行在产品和业务之间

篱笆作为一家起源于社区的电子商务公司,反映到技术层面就是同时要面对产品和业务,以及经营战略的变化调整。如何在产品和业务的夹缝之间完成技术架构的抽象与平衡,寻找更有效的价值定位,这当中有些经验教训和个人感悟愿与众人分享。
本次演讲视频录制于QCon杭州2011

特性注入:成功三部曲

本文将对特性注入以及相关方法做一个扫盲性的介绍。我们会解释这个框架的关键要素,并附上实例来证实它们。为了让文章保持相对较短,我们不会深入到某个工具或方法中,而是会给出一些参考资料,以便大家做进一步的研究。