BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Cloudera Distribution Containing Apache Hadoop 5概述

| 作者 Alex Giamas 关注 8 他的粉丝 ,译者 马德奎 关注 0 他的粉丝 发布于 2014年4月24日. 估计阅读时间: 3 分钟 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。

近日,Cloudera发布了最新的软件发行版CDH5。此次发布距离上一个主要版本发布将近20个月了,CDH4似乎已经在Big Data世界里存在了好多年。

在从包括英特尔和谷歌风投在内的投资公司那里获得了9亿美元的资金后,Cloudera正全速发展,将Hadoop从一个面向数据科学家的利基工具转成一个存储和处理所有数据的集中地。按Tim Stevens的说法Cloudera Enterprise 5“是一个真正的企业级数据中心”。

Cloudera Enterprise 5包含CDH5、Cloudera Manager 5和Cloudera Navigator,其中Cloudera Navigator是一款面向Big Data数据管理方面的工具。

CDH5的主要特点是使用YARN提供了可用于生产环境的MR2。Cloudera Manager也支持MR2,而且CDH5还向后兼容MR1。不过,Cloudera建议将YARN和CDH5一起使用。使用YARN,用户可以并行运行SQL、MapReduce和Spark工作负载,而且可以获得更好的整体资源利用率。

现在,Apache Spark包含在CDH5中。Cloudera宣称,使用Spark,作业的部分或全部阶段都是在内存中运行,作业执行速度快5到100倍。最近,Spark从Apache孵化器毕业,在整个2013年发展势头强劲,有超过100名贡献者为项目提供帮助。将Spark集成进CDH5可以扩展Hadoop的用途,使其不局限于批处理,还可用于实时分析。除Cloudera之外,MapR最近也宣布在面向Apache Hadoop的MapR发行版中支持整个Spark技术栈

有了CDH5,SQL查询现在通过Cloudera Impala以及Hive包含在CDH中。SQL支持的特性差异可能正是这两种解决方案的独特之处。

Cloudera搜索集成进CDH5,这也意味着任何文件或对象都可以近乎实时地索引和搜索。该功能基于Apache Solr,尽管其目的不是成为一个通用的搜索解决方案,但它提供了面向CDH中所有数据的全文搜索功能。

Cloudera Enterprise 5可以集成超过100款合作伙伴产品,这有助于将CDH数据集与流行的预测分析工具集成。数据科学家可以使用他们最喜欢的工具,如SAS或Revolution Analytics,而且工程开销更小。

此外,它还包含完备的灾难恢复、自动备份与还原工具以及更好的访问控制。Cloudera将IBM和Pivotal看作其主要竞争对手,而不是Hortonworks和MapR,企业数据中心是其努力的中心。

查看英文原文:A Roundup of Cloudera Distribution Containing Apache Hadoop 5

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

赞一个 by 张章 鸥翔鱼游

还真的不错的 支持支持!

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT