InfoQ

新闻

MapReduce发力:发布支持Eclipse和Amazon EC2平台的工具插件

作者 Scott Delap 译者 Jason Lai 发布于 2007年3月29日 上午9时28分

社区
Java
主题
性能和可伸缩性,
集群与缓存
标签
亚马逊,
Hadoop,
弹性计算集群
IBM Alphaworks网站发布了一个新的Eclipse插件,使用开源Java MapReduce框架Hadoop来简化应用程序的开发。Hadoop框架最初的产生是为了支持Nutch项目。Hadoop包含了一个分布式文件系统以及一个MapReduce实现。MapReduce是被Google广泛采用的编程结构,用于在集群内部进行海量数据集的并行处理。今年在Hadoop上所做的集成工作使得在Amazon的EC2平台上运行Hadoop MapReduce应用使用Amazon的S3平台进行存储等更为容易。Amazon Web服务博客表示:“由于EC2实体和存储于S3上的数据之间的带宽尚未度量或发布,这是处理大量数据的一种很节约成本的方式”。

IBM MapReduce插件包含以下功能:

  • 允许Java™项目以JAR(Java Archive)文件形式打包并部署到(本地和远程的)Hadoop服务器上
  • 提供辅助开发过程的备忘单(Cheat Sheets)
  • 增加了一个独立的Eclipse透视图(Perspective),以及用于显示Hadoop服务器、Hadoop分布式文件系统(DFS)和当前任务状态的视图
  • 提供了一些向导,使基于MapReduce框架的类的开发变得更加容易

此外,它还包括了改进的备忘单,并且完全兼容OS X。插件使用SCP和SSH与Hadoop服务器进行交互,通过HTTP协议获取工作状态。

分布式java实现 发表人 Gao Ang 发表于 2007年3月29日 下午9时38分
Google的MapReduce是自己写的,不是用Hadoop的实现。 发表人 Shuo Chen 发表于 2007年3月30日 上午6时6分
Re: Google的MapReduce是自己写的,不是用Hadoop的实现。 发表人 Jason Lai 发表于 2007年3月31日 上午12时21分
  1. 返回顶部

    分布式java实现

    2007年3月29日 下午9时38分 发表人 Gao Ang

    据说Hadoop的HDFS实现了类似google的GFS文件系统,并且用java实现了简化的分布式编程模式,找时间也试试看

  2. 返回顶部

    Google的MapReduce是自己写的,不是用Hadoop的实现。

    2007年3月30日 上午6时6分 发表人 Shuo Chen

    “Hadoop包含了一个分布式文件系统以及MapReduce编程结构的一个实现,该实现被Google广泛用于进行跨集群海量数据集的并行处理。”翻译得不准确。 Hadoop which was originally created to support Nutch includes a distributed filesystem and an implementation of the MapReduce programming structure used extensively by Google for parallel processing of large data sets across a cluster. 原文是说 Google 大量使用 MapReduce 来做海量数据的并行处理,不过它有自己的 MapReduce 实现(不是Hadoop),还有这些海量数据位于一个集群中,而非“跨集群”。

  3. 返回顶部

    Re: Google的MapReduce是自己写的,不是用Hadoop的实现。

    2007年3月31日 上午12时21分 发表人 Jason Lai

    已经修正了,多谢认真指正。 只有大家不断向我们提供宝贵的意见和建议,InfoQ 中文站的品质才能保持与全球站一贯的高标准。:)

深度内容

和Google互补的搜索引擎Wolfram|Alpha

Wolfram|Alpha与Google究竟是什么关系,Wolfram|Alpha自己是如何定位的?Wolfram|Alaph在多大程度上是语义网搜索呢?InfoQ中文站就等等这些问题采访了Wolfram研究公司中国区商务经理王翔。

SOA契约成熟度模型

本文说明了所推荐的契约版本管理设计策略是如何与SOA成熟度模型发生联系的。文章目的是为实现版本管理和可组合性提供一个路线图。

数据服务简介

Vijay Narayanan在这篇文章中对数据服务的几个方面进行了介绍,它们都是SOA实践者和数据架构师感兴趣的内容。本文对数据服务的几个方面进行了介绍,包括需求定义,基本原理和好处、范围、开发以及消费模式。

分块云计算

在本文中,Jimmy Nilsson描述了一种他在过去数年间观察到的一种正在缓慢成长的架构风格,他把这种风格称为“分块云计算”。

豆瓣网技术架构变迁

罗马不是一天建成的,豆瓣的技术架构也是随着用户规模的增长一直在持续变化中。在本次演讲中,豆瓣的首席架构师洪强宁将与大家一起分享从上线时的单台服务器架构开始一直到现在的豆瓣架构变迁历程。

融合思想:深入探索S#arp架构

Billy McCafferty展示了S#arp架构,它在ASP.NET MVC框架的基础上,荟萃了当今的最佳实践,应用在ASP.NET Web应用程序的架构设计中。

王雷谈开源以及新兴市场计划

中国作为新兴市场中的新兴市场,是Sun在美国之外实施SSE(SUN Startup Essentials)项目重点关注的地区。在QCon Beijing 2009期间,InfoQ中文站有幸对此项目的负责人王雷先生进行了采访,探讨了关于开源、新兴市场、SSE等话题。

使用HTML5构建下一代的Web Form

HTML5 是由 WHATWG发起的,最开始的名称叫做Web Application 1.0,而后这个标准吸纳了Web Forms 2.0的标准,并一同被W3C组织所采用,合并成为下一代的HTML5标准。