InfoQ

InfoQ

新闻

我的书签

登录注册 以永久保存书签。

该内容已经被标记书签!

标记书签错误,请重试!

来自Amazon、Cloudera、Microsoft与IBM的Hadoop-as-a-Service

作者 Abel Avram 译者 丁雪丰 发布于 2011年11月5日

领域
企业架构,
运维 & 基础架构,
架构 & 设计
主题
亚马逊Web服务(AWS) ,
亚马逊 ,
大数据 ,
数据库设计 ,
IBM ,
微软 ,
PaaS ,
IaaS ,
Hadoop ,
云计算 ,
数据库

如今,公司越来越多地依赖大数据进行决策。Amazon、Cloudera和IBM都发布了它们的Hadoop-as-a-Service产品,Microsoft的类似产品也将在明年问世。

Amazon是最早推出AWS Elastic MapReduce的,可以追溯到2009年,在EC2和S3上运行Apache Hadoop。同Amazon的其他IaaS产品一样,这项服务提供了大数据分析所需的最基本的硬件和软件,把很多配置和编程的工作留给了客户,这需要不少专业知识。假定公司有这样的能力,它可以成功配置并运行Hadoop任务,就像New York Times一样,以相当低廉的价格,在100个Amazon EC2实例上运行了一个24小时的Hadoop任务,将内容为1851年到1922年发表的公开文章的1100万张图片转换成了1.5TB的PDF文档。

Cloudera将Amazon的MapReduce服务又超正确的方向上推进了一步,推出了CDH3,这是一个调优过的Hadoop AMI,包含很多附加软件,可以帮助管理、运行Hadoop上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等等,其中大多数都是开源项目。但是目前还是有些问题,仍然需要大量的专业知识,安装、配置一些东西,CDH3安装指南(PDF)还是有不下175页的篇幅是在说明如何从基础开始,对JDK、CDH3、Snappy以及系统的其他部分进行配置的。

Microsoft最近在PASS Summit 2011上宣布他们会在Windows Azure和SQL Server中整合Hadoop-as-a-Service服务,在2012年提供给那些在其平台上处理大数据的公司。目前还没有太多的细节,只知道Microsoft 承诺会保持与Apache Hadoop的兼容性,并且将代码贡献给开源项目。他们还提供了一个基于Sqoop的SQL Server-Hadoop Connector,这让SQL数据表与Hadoop的HDFS之间的双向数据传输成为可能,因为Hadoop需要将数据保存在自己的文件系统中以保证能够高效地处理大量的数据。

IBM也发布了自己的产品,使用IBM InfoSphere BigInsights软件,在SmartCloud Enterprise上运行HadoopBigInsights有两个版本,基础版是免费的,非常适合项目评估,企业版用于生产环境。IBM的解决方案是迄今为止看起来最为成熟的,基于Watson技术,这是一个AI系统,它打败了两名今年的Jeopardy!最佳选手(译注:Jeopardy!是美国的一个电视智力竞猜节目,比赛问题内容涵盖多个方面,1964年开播至今)。Watson并非在大集群上运行Hadoop来回答问题,而是包含了超过100项技术来“分析自然语言,识别源数据,发现并生成假设,寻找证据并评分,对假设做合并和分级”。因此,这并不仅仅是一个运行大数据任务的平台,它还提供了发现数据并解释它的能力,这是处理问题的过程中最复杂的部分之一。

与Cloudera的解决方案类似,IBM的BigInsights包含了Hadoop以外的很多开源项目,例如:

  • Pig,针对Hadoop的高级编程语言及运行时环境。
  • Jaql,基于JavaScript Object Notation(JSON)的高级查询语言,它也支持SQL。
  • Hive,用于支持Hadoop文件的批量查询和分析的数据仓库基础设施。
  • HBase,用于在Hadoop中支持大型稀疏表的列存储数据环境。
  • Flume,收集数据并将其加载到Hadoop中的设施。
  • Lucene,文本检索与索引技术。
  • Avro,数据序列化技术。
  • ZooKeeper,针对分布式应用程序的协调服务。
  • Oozie,工作流/任务协作技术。

BigInsights还包含了IBM开发的定制技术:一个文本分析引擎、一个用于商业分析的数据挖掘工具,与企业软件的整合和Hadoop增强让管理更加方便,性能更加优越。

BigInsights并没有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在DBMS或数据仓库中”。

IBM的Hadoop解决方案已经问世了,客户可以进行测试。

另一个值得一提的解决方案是EMC Greenplum Analytics Workbench,一个1000+物理节点的集群在运行Hadoop集成测试,是由EMC及Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch和VMware这些合作伙伴一同推出的。Greenplum并不提供Hadoop-as-a-Service,而是提供了一个超过10000虚拟节点和24 PB存储容量的平台,用于对Hadoop本身进行测试。

根据2011 TDWI的一份调查,34%的企业使用大数据分析来帮助制定决策。大数据和Hadoop将在未来扮演更重要的角色。

查看英文原文:Hadoop-as-a-Service from Amazon, Cloudera, Microsoft and IBM

译者 丁雪丰 是InfoQ中文站编辑,满江红翻译组核心成员,出版过《Spring攻略》、《JRuby实战》等多部译著。主要关注领域:企业级应用、海量数据计算、动态语言应用等。

惭愧,没有看明白 发表人 李 冰 发表于
  1. 返回顶部

    惭愧,没有看明白

    发表人 李 冰

    惭愧,没有看明白