BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

最优化 Spark 应用的性能——使用低成本的层次化方案加速大数据处理
录制于:

| 作者 俞育才 关注 0 他的粉丝 发布于 2016年8月30日 | GMTC大前端的下一站,PWA、Web框架、Node等最新最热的大前端话题邀你一起共同探讨。

亲爱的读者:我们最近添加了一些个人消息定制功能,您只需选择感兴趣的技术主题,即可获取重要资讯的邮件和网页通知

35:28

概要
调优是 Spark 开发中非常重要的一个环节,好的调优可以提升 10 倍以上的性能。我们首先分享了 Intel 长期调优经验的总结,然后展示了一种利用 NVMe SSD 搭建的层次化存储,以低成本提升程序的性能。NVMe 是由英特尔,三星,SanDisk,Dell等多家公司发起的新一代 SSD 通信协议接口。无论是顺序读写还是随机读写,它所带来的性能提升都数倍于普通的 SATA SSD,随机访问更是机械硬盘的千倍,但价格相对硬盘还是较贵。在端到端的基准测试中,Spark 应用程序的性能提高了 3 倍,Shuffle 阶段的提升更是达到 5 倍之多。本演讲讲解了 Intel 技术团队如何通过收集 Linux 内核数据,展现 Spark 应用程序在不同阶段对磁盘操作的特征,定位性能瓶颈,进而优化 Spark Core 代码,设计出简单易用、高性价比的层次化设备存储方案。

个人简介

俞育才,Intel大数据资深专家,作为一个工作了 10 余年的老码农,我觉得自己是个挺“从心”的人。刚毕业那会儿,我在 IBM 做存储开发,DS8000,IBM 的最高端产品之一。但是我却一直对 Linux 和开源文化非常感兴趣。后来 Intel 开始做 Moblin,那是一个基于 Linux 内核的开源操作系统,可以运行在多种嵌入式设备上,包括手机,车载,电视,路由器等等。我加入了这个项目,先后经历了三个大的产品开发:Moblin,Meego,Tizen,慢慢地从小工熬成了架构师。在12年的时候,各种互联网络为大数据提供了很好的样本,如何从这些数据中挖掘信息将成为一件意义非凡的事情。我很有幸地加入了 Intel 的 Spark 团队。这是个令人兴奋的项目,在社区上,我们和最好的数据专家一起讨论下一代的数据平台,在 Intel 里,我们和最好芯片专家一起将硬件的性能推向极限。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT