BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Spark从Apache孵化器正式毕业

| 作者 Alex Giamas 关注 10 他的粉丝 ,译者 马德奎 关注 0 他的粉丝 发布于 2014年3月12日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

近日,Spark从Apache孵化器毕业。Spark声称,与Apache Hadoop相比,它在内存数据集上的性能提升了高达100倍,而在磁盘数据集上的性能则正常回落到10倍。自2010年开源以来,Spark一直是社区中最活跃的项目之一。

它的快速成长可以归于几个原因。为了利用众所周知的SQL语言,它可以将自身的DSLSQL相结合。Spark的基本API是一种Scala DSL,围绕名为弹性分布式数据集(RDD)的分布式项集合构建。利用分布式执行,RDD可以支持批量和聚集操作,如筛选、映射和reduceByKey。Spark可以使用Hive SQL提供具有同等执行速度的原生Scala API。重用Hive的前端和后端意味着它可以与Hive一起使用,共享数据、查询和UDFs。

Spark使用MLib提供了一系列开箱即用的机器学习算法,涉及分类、回归分析、聚簇和推荐领域。MLib只是MLBase的一个组件。MLBase是一个分布式机器学习系统,旨在使机器学习任务对于终端用户和ML研究人员都更简单易懂。它是第一个将用户从算法选择中解放出来的系统,并针对分布式执行进行自动优化。算法选择是根据ML最佳实践和基于成本的模型实现的。分布式执行与Apache Mahout类似,并针对机器学习的数据访问模式进行了优化。

图算法可以用GraphX实现,后者结合了数据并行和“图并行(graph-parallel)”两种系统语义。GraphX提供了可以与Apache Giraph相媲美甚或更好的性能,而Apache Giraph则是Facebook使用的著名的图处理系统。

SparkR向R暴露了Spark API,允许统计人员从R函数直接向Apache Spark集群提交作业。除了RDBMS之外,R是最受数据科学家欢迎的工具。它的主要问题是单线程以及本来不是为大型数据集而设计。SparkR解决了这些问题,但有限制,它只对像梯度下降法这种本来就并行的算法才有效

Spark可以部署在Apache YARN上,易于与异构系统集成和共存。它还是由ClouderaDatabricks支持的Cloudera企业数据中心版的一部分,其中Databricks是Spark商业化的推动者。最后,Streaming可以帮助快速创建原型及应用有效的分布式系统语义。读者可以从GitHub上获取Spark的代码。

查看英文原文:Spark Officially Graduates From Apache Incubator

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

怎么支持稀疏矩阵 by chang fan

怎么支持稀疏矩阵

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT