BT

你的观点很重要! 快来参与InfoQ调研吧!

NERSC扩展深度学习计算能力达15千万亿次FLOPS

| 作者 Alex Giamas 关注 3 他的粉丝 ,译者 盖磊 关注 1 他的粉丝 发布于 2017年9月14日. 估计阅读时间: 5 分钟 | ArchSummit社交架构图谱:Facebook、Snapchat、Tumblr等背后的核心技术

A note to our readers: As per your request we have developed a set of features that allow you to reduce the noise, while not losing sight of anything that is important. Get email and web notifications by choosing the topics you are interested in.

Intel斯坦福大学美国国家能源研究科学计算中心(NERSC,National Energy Research Scientific Computing Center)近期宣布实现了首个15千万亿次浮点运算(PetaFLOPS)计算能力的超级计算集群。该工作成果以论文发表,名为“以15千万亿次FLOPS运行深度学习:科学数据的监督和半监督分类”(Deep Learning at 15PF: Supervised and Semi-Supervised Classification for Scientific Data)。据论文介绍,该工作使用由9622个1.4GHz Intel至强融核(Phi)处理器所组成的集群,以物理和气象数据集为训练数据做深度学习运算,达到了11.41至13.47千万亿次FLOPS的平均持久性能,峰值性能在采用单精度时达15.07千万亿次FLOPS。实验使用的是NERSC的Cori Phase-II 超级计算集群,该集群有9668个节点,每个节点有68核,每个核支持4个硬件线程(相当于每个节点272核),整个集群支持2,629,696个线程。

在论文中,深度学习运算的实现组合使用了Intel CaffeIntel Math Kernel Library(Intel MKL)和Intel Machine Learning Scaling Library(Intel MLSL)。

论文给出的最突出贡献是达到了75%的扩展因子,在具有9600个节点的集群上取得了7205倍的加速。完全扩展(即100%扩展,或线性扩展)时可达9600倍的加速。

这一结果的取得要部分归功于斯坦福大学计算机科学系Christopher Ré教授研究小组的工作。该研究小组的工作提出了对人工神经网络(ANN,Artificial Neural Network)参数同步更新和异步更新的支持。

同步屏障(Synchronisation Barrier)通常是机器学习等算法在并行化时所面对的一个严重障碍。当多个节点同步地计算一个任务时,任一节点的短暂挂机将延缓并阻塞所有计算中的节点。这在分布式系统中被为“拖后者(Straggler)效应”。困扰同步系统的另一个问题是,如果批处理的计算规模下降,那么同步系统的性能也会随之下降。在大规模并发集群中,正如上面所介绍的集群,这将构成严重的问题。百度提供的DeepBench基准测试框架表明,当批处理的规模下降时,峰值FLOPS性能可下降25~30%。整体性能下降的时间复杂度符合O(log(M)),其中M是集群中节点个数。

另一方面,异步深度学习系统需要更多次的迭代(因此也需要更多的计算)才能收敛到一个解。这是由于不好的统计效率所导致的,该问题被称为“过时”(Staleness)问题。此外,异步系统还具有无法收敛到一个解的风险。针对该问题,Christopher Ré研究小组的Ioannis Mitliagkas指出,在目标函数是正确的情况下,如果参数调优存在错误,很可能无法收敛。

两种模型各具缺点和高效之处,这启发研究人员引入了一种混合方法解决问题。在该方法中,数个节点组成一个小规模的计算组,同一计算组中的各个节点是同步工作的,目标是对模型做一次更新。各个计算组与一个中心化的参数服务器做异步交互,很好地利用了同步方式和异步方式。

该混合方法抑制了“拖后者效应”。相比于同步方式,它提供了至少1.66倍到最高10倍的速度增加。此外,采用该方法的系统表现出强可扩展性(strong scaling)的特性,可扩展到1024个节点,其中同步方式在512个节点的规模停止扩展。强可扩展性是指在保持问题规模一定的情况下增加处理器的数量,Mitliagkas指出,强可扩展性是机器学习问题中的常见用例。

该算法已进一步用于解决实际的科学问题。一个应用就是学习如何从背景事件中分离出罕见的新粒子信号,该应用可用于理解宇宙的本质。其它的应用还包括气象数据中的特性识别,这使得研究人员可以标定气候改变中发生极端气候的频率和强度。

查看英文原文: NERSC Scales Scientific Deep Learning to 15 Petaflops

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

深度内容

gRPC线程模型分析

??? 2017年11月21日

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT