BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

来自Amazon、Cloudera、Microsoft与IBM的Hadoop-as-a-Service

| 作者 Abel Avram 关注 7 他的粉丝 ,译者 丁雪丰 关注 3 他的粉丝 发布于 2011年11月6日. 估计阅读时间: 6 分钟 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。

如今,公司越来越多地依赖大数据进行决策。Amazon、Cloudera和IBM都发布了它们的Hadoop-as-a-Service产品,Microsoft的类似产品也将在明年问世。

Amazon是最早推出AWS Elastic MapReduce的,可以追溯到2009年,在EC2和S3上运行Apache Hadoop。同Amazon的其他IaaS产品一样,这项服务提供了大数据分析所需的最基本的硬件和软件,把很多配置和编程的工作留给了客户,这需要不少专业知识。假定公司有这样的能力,它可以成功配置并运行Hadoop任务,就像New York Times一样,以相当低廉的价格,在100个Amazon EC2实例上运行了一个24小时的Hadoop任务,将内容为1851年到1922年发表的公开文章的1100万张图片转换成了1.5TB的PDF文档。

Cloudera将Amazon的MapReduce服务又超正确的方向上推进了一步,推出了CDH3,这是一个调优过的Hadoop AMI,包含很多附加软件,可以帮助管理、运行Hadoop上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等等,其中大多数都是开源项目。但是目前还是有些问题,仍然需要大量的专业知识,安装、配置一些东西,CDH3安装指南(PDF)还是有不下175页的篇幅是在说明如何从基础开始,对JDK、CDH3、Snappy以及系统的其他部分进行配置的。

Microsoft最近在PASS Summit 2011上宣布他们会在Windows Azure和SQL Server中整合Hadoop-as-a-Service服务,在2012年提供给那些在其平台上处理大数据的公司。目前还没有太多的细节,只知道Microsoft 承诺会保持与Apache Hadoop的兼容性,并且将代码贡献给开源项目。他们还提供了一个基于Sqoop的SQL Server-Hadoop Connector,这让SQL数据表与Hadoop的HDFS之间的双向数据传输成为可能,因为Hadoop需要将数据保存在自己的文件系统中以保证能够高效地处理大量的数据。

IBM也发布了自己的产品,使用IBM InfoSphere BigInsights软件,在SmartCloud Enterprise上运行HadoopBigInsights有两个版本,基础版是免费的,非常适合项目评估,企业版用于生产环境。IBM的解决方案是迄今为止看起来最为成熟的,基于Watson技术,这是一个AI系统,它打败了两名今年的Jeopardy!最佳选手(译注:Jeopardy!是美国的一个电视智力竞猜节目,比赛问题内容涵盖多个方面,1964年开播至今)。Watson并非在大集群上运行Hadoop来回答问题,而是包含了超过100项技术来“分析自然语言,识别源数据,发现并生成假设,寻找证据并评分,对假设做合并和分级”。因此,这并不仅仅是一个运行大数据任务的平台,它还提供了发现数据并解释它的能力,这是处理问题的过程中最复杂的部分之一。

与Cloudera的解决方案类似,IBM的BigInsights包含了Hadoop以外的很多开源项目,例如:

  • Pig,针对Hadoop的高级编程语言及运行时环境。
  • Jaql,基于JavaScript Object Notation(JSON)的高级查询语言,它也支持SQL。
  • Hive,用于支持Hadoop文件的批量查询和分析的数据仓库基础设施。
  • HBase,用于在Hadoop中支持大型稀疏表的列存储数据环境。
  • Flume,收集数据并将其加载到Hadoop中的设施。
  • Lucene,文本检索与索引技术。
  • Avro,数据序列化技术。
  • ZooKeeper,针对分布式应用程序的协调服务。
  • Oozie,工作流/任务协作技术。

BigInsights还包含了IBM开发的定制技术:一个文本分析引擎、一个用于商业分析的数据挖掘工具,与企业软件的整合和Hadoop增强让管理更加方便,性能更加优越。

BigInsights并没有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在DBMS或数据仓库中”。

IBM的Hadoop解决方案已经问世了,客户可以进行测试。

另一个值得一提的解决方案是EMC Greenplum Analytics Workbench,一个1000+物理节点的集群在运行Hadoop集成测试,是由EMC及Intel、Mellanox Technologies、Micron、Seagate、SuperMicro、Switch和VMware这些合作伙伴一同推出的。Greenplum并不提供Hadoop-as-a-Service,而是提供了一个超过10000虚拟节点和24 PB存储容量的平台,用于对Hadoop本身进行测试。

根据2011 TDWI的一份调查,34%的企业使用大数据分析来帮助制定决策。大数据和Hadoop将在未来扮演更重要的角色。

查看英文原文:Hadoop-as-a-Service from Amazon, Cloudera, Microsoft and IBM

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

惭愧,没有看明白 by 李 冰

惭愧,没有看明白

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT