BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

他的粉丝

在首次发布三周之后,MLflow迎来了0.2版本

作者 Matei Zaharia 关注 0 他的粉丝 , Mani Parkhe 关注 0 他的粉丝 ,译者 悟明 关注 0 他的粉丝   发布于  2018年7月17日

在今年的Spark+AI峰会上,MLflow团队推出了MLflow,一个开源的用于简化机器学习生命周期的平台。从首次发布到现在的三周时间里,已经有很多数据科学家和工程师对使用MLflow和为MLflow贡献代码感兴趣。MLFlow的GitHub仓库已经有180个分支,其中有十几个贡献者提交了问题和拉取请求。此外,上周参加由该团队举办的第一次MLflow聚会的人数接近100人。 昨天,该团队正式宣布推出MLflow 0.2版本,这一版本包含了由内部客户和开源用户提出的一些最被期待的功能。按照MLflow快速入门指南给出的提示,可以使用pip install mlflow来安装MLflow 0.2。以下内容将介绍该版本的主要新功能。

他的粉丝

专访朱诗雄:Apache Spark中的全新流式引擎Structured Streaming

作者 Tina 关注 1 他的粉丝 发布于  2018年2月1日

Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。经过一年多的改进和完善,目前Structured Streaming已经在Databricks内部和客户广泛使用,InfoQ采访了Structured Streaming的核心开发朱诗雄来具体了解这个项目。

他的粉丝

关于CarbonData+Spark SQL的一些应用实践和调优经验分享

作者 江柳 关注 2 他的粉丝 发布于  2017年9月12日

大数据时代,中大型企业数据的爆发式增长,几乎每天都能产生约 100GB 到 10TB 的数据。而企业数据分系统构建与扩张,导致不同应用场景下大数据冗余严重。行业亟需一个高效、统一的融合数仓,从海量数据中快速获取有效信息,从而洞察机遇、规避风险。

他的粉丝

Spark on Angel:Spark机器学习的核心加速器

作者 腾讯开源 关注 0 他的粉丝 发布于  2017年8月21日

2016年12月腾讯宣布推出面向机器学习的第三代高性能计算平台——Angel,并于2017年6月开源。本文以L-BFGS为例,分析Spark在机器学习算法的实现上的问题,以及Spark on Angel是如何解决Spark在机器学习任务中的遇到的瓶颈,使Spark的机器学习能力更加强大。

他的粉丝

IBM 数据科学平台三大特性解决数据科学家协作问题

作者 张晓楠 关注 1 他的粉丝 发布于  2017年6月28日

虽然数据科学是一个比较火爆的话题,也受到越来越多重视,但是企业内部数据科学现状却是:不同数据分析人员使用着包括Python、R、Spark在内的多种开源产品,并且版本不一;不同开源技术的使用导致数据资产分散存在,形如散沙;最严重的是,当企业内部多位数据分析人员需要协同工作的时候,缺少一个集成多语言、多数据资产、适于统一管理的平台。正因为看到以上挑战,IBM在去年推出IBM Data Science Experience (DSX),解决数据科学家协同工作的问题。近日InfoQ记者采访了IBM分析平台部门资深大数据专家吴敏达,请他详解DSX。

他的粉丝

Spark上的深度学习框架再添新兵:Yahoo开源TensorFlowOnSpark

作者 刘志勇 关注 2 他的粉丝 发布于  2017年2月16日

Yahoo Big ML团队宣布开源TensorFlowOnSpark,他们用来在大数据集群的分布式深度学习最新的开源框架。 Yahoo Big ML团队成员Lee Yang、Jun Shi、Bobbie Chern和Andy Feng日前合著了一篇文章,详细介绍了他们开源的TensorFlowOnSpark的方方面面。 Yahoo开源的TensorFlowOnSpark使Google发起的TensorFlow深度学习开源框架与Apache Spark集群中的数据集兼容,一些组织为了处理大量不同类型的数据而进行维护,对他们来说无疑是个好消息。 Yahoo开源TensorFlowOnSpark采用了Apache 2.0协议许可,并在GitHub上发布。 深度学习通常涉及大量数据进行人工神经网络训练,像照片,然后指导神经网络对新数据做出最佳猜测。 InfoQ翻译并整理本文。

他的粉丝

专访黄翀:东方航空到底用MongoDB做了什么,技术选型为何花落MongoDB?

作者 韩婷 关注 0 他的粉丝 发布于  2016年9月13日 3

在今年的MongoDB World W016大会上,来自中国东方航空公司黄翀分享了使用MongoDB的实践经验,介绍了东航如何将Spark和MongoDB配合使用来解决所面临的问题,以及具体的步骤,一时引起热议。那么,东方航空具体如何进行的技术选型?效果如何?InfoQ对东方航空相关项目的技术负责人黄翀进行了专访。

他的粉丝

LinkedIn开源Photon机器学习:支持Spark

作者 LinkedIn 关注 0 他的粉丝 ,译者 侠天 关注 5 他的粉丝   发布于  2016年7月5日

机器学习是LinkedIn公司关联营销的关键组成部分。他们使用机器学习为feed、广告、推荐系统(比如People You May Know)、邮件优化、搜索引擎等训练排序算法。更深一点的例子可以看LinkedIn的feed流实现[部分一,部分二],涉及到如何把机器学习应用到feed流排序中。

他的粉丝

Apache Spark和Apache Flink,如何选择?

作者 谢丽 关注 10 他的粉丝 发布于  2016年3月30日

Spark Streaming和Flink都能提供恰好一次保证和高吞吐量,容错开销也都非常低。而且从1.6版本开始,Spark也像Flink一样提供了自动内存管理。这两个流处理引擎确实有许多相似之处,但它们也有着巨大的差异。近日,MapR Technologies产品经理Balaji Mohanam在公司内部的白板演示中比较了Apache Spark和Apache Flink的不同之处,这主要体现在计算模型上。

他的粉丝

Spark生态顶级项目汇总

作者 侠天 关注 5 他的粉丝 发布于  2016年3月7日

现在Apache Spark已形成一个丰富的生态系统,包括官方的和第三方开发的组件或工具。后面主要给出5个使用广泛的第三方项目。

他的粉丝

Spark 1.6发布:引入Dataset接口

作者 侠天 关注 5 他的粉丝 发布于  2016年1月6日 3

今天,Databricks宣布发布Apache Spark 1.6!这也是开源社区开发的一个里程碑,2015年代码贡献者达到1000人,是2014一整年的两倍。

他的粉丝

使用Akka来优化Spark+ElasticSearch的准实时系统

作者 孙镜涛 关注 2 他的粉丝 发布于  2015年12月18日 1

假如有这样一个场景:系统每秒钟都会收到大量的事件,每个事件又包含很多参数,用户不仅需要准实时地还需要定期地判断每一种事件、事件的每一种参数值的组合是否超过了系统设定的阈值。面对这一场景,用户应该采用什么样的方案呢?最近,来自于Premium Minds的软件架构师André Camilo在博客上发表了一篇文章,介绍了他们是如何使用Akka解决这一棘手问题的。

他的粉丝

Spark和Hadoop,孰优孰劣?

作者 谢丽 关注 10 他的粉丝 发布于  2015年12月1日 1

Spark已经取代Hadoop成为最活跃的开源大数据项目。但是,在选择大数据框架时,企业不能因此就厚此薄彼。近日,著名大数据专家Bernard Marr在一篇文章中分析了Spark和Hadoop的异同。

他的粉丝

Collective的Spark ML经验分享:读者模型

作者 孙镜涛 关注 2 他的粉丝 发布于  2015年11月20日 1

Collective成立于2005年,其总部位于纽约,是一家从事数字广告业务的公司。 该公司的数字广告业务非常依赖于机器学习和预测模型,对于特定的用户在特定的时间应该投放什么样的广告完全是由实时或者离线的机器学习模型决定的。本文来自Databricks的技术博客,Eugene Zhulenev分享了自己在Collective公司从事机器学习和读者模型工作的经验。

他的粉丝

应用Spark解决Kaggle数据科学问题

作者 张天雷 关注 4 他的粉丝 发布于  2015年11月19日

如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题。近期,comSysto公司的Danial Bartl就分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。本文从数据分析、机器学习和结果等三个方面对其进行了详细介绍。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT