BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Apache Spark 1.3发布,新增Data Frames API,改进Spark SQL和MLlib

| 作者 Mikio Braun 关注 0 他的粉丝 ,译者 丛一 关注 2 他的粉丝 发布于 2015年3月25日. 估计阅读时间: 3 分钟 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。

Apache Spark项目刚刚发布了1.3版本。该版本主要的功能改进包括新增DataFrames API,更加成熟的Spark SQL,机器学习库MLlib中新增的大量方法以及更好地整合Spark Streaming与Apache Kafka。

这一版本主要的功能改进之一就是新增的DataFrames API。效仿同名的R语言数据结构,其目标是为列表数据处理提供更好的支持。每个DataFrame包含一个表,该表中包含带有类型和名称的列,此外,DataFrame还提供与SQL中的查询类似的过滤、分组或计算聚合等操作。

DataFrames与分布式SQL查询引擎Spark SQL结合紧密。可以通过SQL查询结果集或RDD构建DataFrames,也可以从Parquet格式的文件中加载DataFrames。目前来说,Spark中主流的分布式数据集合类型是RDD(弹性分布式数据集),不过DataFrames旨在为结构化数据提供更好的支持。

作为Spark一部分的机器学习库Spark MLlib新增了大量的学习算法,如用于识别文档中的主题并根据主题对文档进行聚类的概率统计方法——隐含狄利克雷分布(Latent Dirichlet Allocation),或用于多级预测任务的多项式逻辑斯蒂回归(multinomial logistic regression)。此外实现了对分布式线性代数的初步支持,其中矩阵块是以分布式的方式存储的。这一功能对更多复杂数据分析的任务来说非常有意义,例如矩阵因子分解由于矩阵过大而经常会出现无法装载到主内存中的情况。

在这些算法之上,Spark还为数据分析增加了更高级的功能,如导入导出已掌握的预测模型以及在1.2版本中引入的以高级方式指定数据传输管道的Pipeline API。在数据科学中,这种管道经常用于从原始数据中提取相关特征。

此外,Spark已经直接与Apache Kafka集成,可以接入实时事件数据。

Apache Spark最初于2009年源自UC Berkeley AMPLab。Spark可以独立运行,也可以运行在已经安装的Hadoop之上,并提供比原始Hadoop中的MapReduce处理模型更大的操作集合。Spark会尽可能的将数据保留在内存中,与更加依赖磁盘的MapReduce相比,在性能上有进一步的提升。另外,通过将数据采集到缓存中然后定期小批量地进行处理,Spark可以接近实时地完成事件数据处理。与Spark类似的项目还有包含类似功能集合及查询优化和持续流数据处理引擎的Apache Flink,以及运行于MapReduce处理模型之上,并提供类似的高级操作集合的CascadingScalding

查看英文原文:Apache Spark 1.3 Released, Data Frames, Spark SQL, and MLlib Improvements

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT