InfoQ

新闻

Cascading——针对Hadoop MapReduce的数据处理API

作者 R.J. Lorimer译者 张龙 发布于 2008年10月12日 下午7时37分

社区
Java
主题
云计算
标签
MapReduce,
Hadoop

Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。

该处理API使开发者可以快速装配复杂的分布式流程,而无需“考虑”MapReduce。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。

Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,cascade就是多个流的链接、分支和分组。
该API提供了很多关键特性:

  • 基于依赖的“拓扑调度(Toplogical Scheduler)”及MapReduce规划——这是cascading API的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和cascades进行并发调用。此外,各种流的步骤被智能地转换成对应于hadoop cluster的map-reduce调用。
  • 事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。
  • 脚本化——Cascading API有针对Jython、Groovy和JRuby的脚本化接口——这使其适合于常见的动态JVM语言

有很多文档可用来学习cascading API的概念和实现。这儿有一篇PDF格式的介绍性概览,从高层展示了cascading API的核心概念。还有一个“介绍性示例”展示了如何创建一个简单的Apache日志解析器。最后,这儿还有一个完整的Cascading API的Javadoc文档

查看英文原文:Cascading - Data Processing API for Hadoop MapReduce

没有回复

回复

独家内容

应用JSF、Ajax和Seam开发Portlets(1/3)

本文主要讲述了如何用JBoss Portlet Container 和JBoss Portlet Bridge创建新项目,怎样配置一个JSF应用去使用JBoss Portlet Bridge,以及JBoss Portlet Bridge所具备的功能。

AtomServer:数据分发的发布动力(第二部分)

在这篇文章里,Bryon Jacob和Chris Berry将和我们继续探讨AtomServer,它是基于Apache Abdera的完整Atom存储实现。作者还创建了几个Atompub规范扩展,其中包括自动标记、批处理和Feeds聚合。

架构师(试刊第二期)

InfoQ中文站的电子杂志《架构师》试刊第二期出版了!相比于上期,我们在内容的选择安排和版式上都根据读者的意见重新做了修正。“细节决定成败”,我们希望基于InfoQ中文站的专业内容,《架构师》能逐渐成为大家喜欢的电子刊物!

一种正规的性能调优方法:基于等待的调优

在本文中,Steven Haines探讨了Web应用性能调优问题。该领域过去更像是一门艺术而不是一门科学。他提出了一种称为基于等待调优的方法,使整个调优过程更加可度量,也因此更具科学性。

Java程序员ActionScript 3入门

通常来说,改变技术路线时最艰难的部分是辨别语言语法之间的不同。这篇文章就为Java开发者提供了一份如何转向Flex基础语言ActionScript的指南。

浅谈如何创建Rails应用

本视频主要以财帮子为例,介绍了如何创建一个PV为百万级的Rails应用。其中包括:Rails应用的服务器架构、Rails Cache的优化、负载均衡的处理、Web服务器的调试、分布式解决方案、Open API的设计等等。

Alexandru Popescu谈InfoQ.com网站架构

InfoQ首席架构师Alexandru Popescu在采访中谈论了InfoQ架构、Webwork与DWR、Hibernate与JCR、Hibernate可扩展性、最新的InfoQ视频流系统和InfoQ的未来规划。

揭示常见的重构误区

相对于Java,.NET在持续重构方面所给与的重视仍然少为人知,大多数人对于重构是否真正属于开发过程,以及如何将其应用到开发过程中持观望态度。Danijel Arsenovski试图为你揭示这些谜题。