BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

对话Hillery Hunter:IBM通过有效地扩展训练缩短了神经网络的训练时间

| 作者 Roland Meertens 关注 7 他的粉丝 ,译者 张斌 关注 0 他的粉丝 发布于 2017年9月30日. 估计阅读时间: 7 分钟 | 都知道硅谷人工智能做的好,你知道 硅谷的运维技术 也值得参考吗?QCon上海带你探索其中的奥义

2017年8月,IBM宣布其打破了图识别功能的训练记录

IBM Research能够将其ResNet-50神经网络布局的训练时间缩短到只有50分钟。在另一个名为ResNet-101的网络布局上,他们获得了33.8%的准确率新记录。他们利用256个GPU,在ImageNet-22K数据集的750万张图训练其神经网络。相比之下,2017年6月,Facebook宣布能够在一个小时内训练他们的模型,但其使用了较小的数据集和较小的神经网络。IBM将其成果作为一篇论文发表在arXiv上

InfoQ联系了IBM Research认知计算加速基础架构主管Hillery Hunter,并提出了几个问题。

InfoQ:您可以先说说你们试图破解此记录时遇到的问题吗? 你们的数据集有多大,其他人在使用同样的数据集时通常会遇到什么问题?

我们在ResNet-101训练中使用了750万张图片,当处理这么多数据时,计算花费的时间是一个重大挑战。如果在单台服务器上实施此训练,需要大约16天才能完成。今天很少有领域能容忍这么长的计算周转时间。所以我们想解决这个时间尺度的问题,将这一大量数据集的训练缩短到一天之内。

InfoQ: 256多个GPU之间的通信在此成果中起到了非常重要的作用。您能说说你们做了什么以及它们如何帮助你们训练网络吗?

我们开发了一个自定义的通信库,可帮助系统中的所有学习单元(即GPU)以非常接近最优的速度和带宽彼此进行通信。我们的库可以融入到任何深度学习框架(如TensorFlow,Caffe等)中,而不是被硬编码进深度学习软件包。当各个学习单元可以快速相互通信时,你便可以更有效地将更多学习单元添加到系统中,并更快完成训练。如果通信时间不够快,你就会遇到扩展瓶颈,并且无法应用更多的服务器/ GPU来解决训练的问题。

InfoQ:您提到了扩展效率。之前的记录是89%,但你们却达到了95%。扩展效率究竟是什么,它与训练时间有何关系?

扩展效率可以衡量多台服务器共同有效地解决计算问题的能力。扩展效率越高,你就可以添加更多的服务器并加快解决问题的时间。95%的扩展效率意味着你不是只使用1台服务器来解决问题,而是使用100台服务器,所以它们解决问题的速度会快95倍。

InfoQ:在这种情况下,您使用256个GPU提供了95%的扩展效率。如果我使用10000 个GPU,那么我的网络是不是能够加快9500倍的速度? 换句话说:速度是线性扩展的吗?限制因素有哪些?

我们相信我们新的通信库与最优已经非常接近了,而且我们预计会继续实现更高的GPU加速。现在,深度学习研究界正在努力解决一个被称为“批量大小”的限制因素。这个因素目前会令10,000个GPU运行起来非常困难,但如果克服了这一问题,那么扩展更多GPU将成为可能。

InfoQ:除了打破记录之外,你们还将准确率从29.8%提高到33.8%。这纯粹是因为更高的“训练能力”,还是因为改变了网络布局?

我们并未为这项工作设计新的神经网络。我们使用了全同步训练(得益于我们的低延迟通信库),并且由于训练时间上的优势,我们对许多图片进行了可行的训练。

InfoQ:你们的模型是在哪个框架下开发的?

公告中描述了我们在Torch(ResNet-50)和Caffe(ResNet-101)上完成的工作。通过PowerAI技术预览程序,IBM服务器团队也将我们的分布式深度学习技术提供给了TensorFlow的用户。

InfoQ:您能解释一下PowerAI平台是什么以及它能为开发人员做些什么吗?

PowerAI是一套深度学习功能,包括框架(如Caffe、Tensorflow、Torch、Chainer等)、多服务器支持以及一些为受GPU加速的IBM服务器预编译和预优化过的用户工具。PowerAI可帮助用户避免使用开源深度学习工具的麻烦、加快训练时间并提升自定义数据集的深度学习性能。任何人都可以在自己的服务器上或在Nimbix云端试用PowerAI功能。

InfoQ:你们有计划提高训练速度吗? 您认为计算时间和准确度方面的限制是什么?

我们的分布式深度学习库在扩展效率方面已经非常接近最优了,但总体而言,我们相信深度学习的训练时间和准确性还能进一步提高。我们希望深度学习不只是停留在象牙塔中,而是要走出去。大型功能目前需要几周到一个月的时间才能到达客户手中,而客户仅需要在几分钟或几秒钟内就可以看到业务成果。

Hillery Hunter简介:

Hillery Hunter是IBM Tats Watson研究中心、加速认知基础设施团队的研究员和主管,该中心位于纽约Yorktown Heights。她对跨学科技术课题包括硅到系统架构、采用新解决方案解决传统问题等较感兴趣。其团队致力于优化硬件协同、解决机器学习和深度学习等待时间的问题。其以前的工作主要在DRAM主存系统和嵌入式DRAM领域,其曾是IBM服务器和大型机DDR3的端对端存储器电源主管,拥有丰富的相关开发经验。2010年,她在工程前沿研讨会上被美国国家工程院评为院士,她是美国获得此殊荣的顶尖年轻工程师之一。Hillery博士拥有伊利诺伊大学厄巴纳-尚佩恩分校的电气工程博士学位,并且是IBM科技学院成员。2017年她被任命为IBM研究员。

查看英文原文:https://www.infoq.com/news/2017/09/ibm-scale-neural-network-gpus


感谢罗远航对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

深度内容

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT