BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

姚唐仁:AI平台如何解决算法工程师的痛点
录制于:

| 受访者 姚唐仁 关注 1 他的粉丝 作者 InfoQ 关注 13 他的粉丝 发布于 2018年5月23日 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。
09:20

个人简介 姚唐仁,在七牛的AI实验室担任首席架构师,其研究的方向主要还是计算机视觉领域。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 请您先进行下简单的自我介绍。

姚唐仁:你好,我叫姚唐仁,现在是在七牛的AI实验室担任首席架构师,我们研究的方向主要还是计算机视觉领域。

   

2. 第一个问题就是有关深度学习是如何应用在视频结构化上的,为什么深度学习可以这么快应用在视频结构化这个应用上?

姚唐仁:首先是本身模型的一些发展,我们现在的研究越来越多,模型的准确度等方面都有很大的提升,在视频这个领域需要多个模型进行融合,再加上一些知识图谱技术的支持,相关的一些领域都在一起发展,发展的时候使视频结构化这样很难的一个主题得到一定的可落地、可使用。

另外,我觉得还有一个驱动力就在于,其实本身大家对深度学习的接受度也在提升,我们在实践的过程中也经常也会有一些跟视频相关,比如说广电、新媒体领域的客户主动地来找我们,他们自己有这种创新的意愿,只有这样的创新的意愿它可以接受技术不断完善的成长过程,通过双方的合力来推动技术很快速的应用和落地。

   

3. 未来的机器学习发展趋势是怎么样的?深度学习还能走多久?

姚唐仁:机器学习很多个分支,现在火的是深度学习,对于深度学习我觉得数据是很重要的, Google之前有一个研究,经过大量实验得出了结论:数据量跟模型是正相关的。另外,网络模型也在不断的发展,这一块的红利应该在一段的时间之内还是有很大的空间。当然现在我们对深度学习的理解其实还是不够的,它仍然是个黑盒子,当后面出现的一些问题时,前面输入或者整个网络怎么去调,大家理解的还不够。随着这一领域的发展,红利被吃完了以后,以后的发展可能要用一个新的模式,需要我们创造一些新的进展,比如说类脑学习这种方向。

   

4. 请介绍一下七牛云的AI分析平台与其他厂家的有什么不同?优势在哪?

姚唐仁:外面通用的开放训练平台,可能更关注的是通用性,我们并没有开放自己的平台,所以说,我们的平台更有针对性,针对我们自己的算法工程师。算法工程师的工作流程里面有很多环节,这些环节里面有些步骤的研究的很深入,于是对数据和模型训练的要求也会更高。我们平台的构建更多的是解决这种更专业化的问题,更专注于解决算法工程师的一些痛点。

另外,我们这个平台,它肯定是根据我们运营方的环境来配置的。我们运营方提供很多服务,不管是私有云、公有云,都会进行打通、迭代,我们还建立了一个很庞大的资源库,这个资源库跟训练平台进行打通,能够提升效率。

   

5. 七牛的AI平台的任务调度机制是自研的还是采用其他开源框架?

姚唐仁:大部分的互联网企业,一般可能都是用开源的,我们也同样会用到开源。但是在拥抱开源的过程中,我们是做了很多深度的一些定制的。举个例子,我们像调度的这块通用的,比如说用K8S调度的时候,它的力度是比较粗的。我们在训练的时候, CPU跟GPU是有一种亲缘性关系的,比如说8卡结构是四个GPU会在一组,另外四组在一组,当出现非亲缘性的调度时,效率会下降的,中间有一个hub也在进行数据的交换,通用的调度器是做不到这一点的,我们在这上做一些深度的定制,当我们在处理一些视频的时候,甚至更大规模的时候,让调度尽量去遵循亲缘性,让它的效率更高。

   

6. AI平台构建过程中如何解决计算资源偶现分布不均匀情况?

姚唐仁:我们的平台是基于GPU的以卡为单位做一些虚拟化的,其实每个训练它就相当于一个Job一样,像一个任务一样,我们怎么来让这个提交的Job高效的在平台上运行,这是我们通过这种方式要解决的问题。在算法工程师整个的工作环境里面,真正提交训练是一部分,我们只是在真正提交训练的时候才会去占用整个的资源池,我们的GPU资源是个资源池,是基于容器的,也是基于调度的,所以说我们是通过更高效的去利用资源的方式来解决资源的不对称的问题。

   

7. 请您分享一下印象最深的踩过坑的经验?

姚唐仁:我觉得其实我们应该是说一路踩坑过来的,也谈不上哪个印象特别深,可以讲讲近期的。我在演讲中提到一个,在我们视频结构化的时候有一些特殊的场景,比如投票的场景,进行人脸跟踪的时候,出现了跟踪失效的情况,导致人脸大量的遗漏,这种坑就是在你不去实践它的、不去大量的应用它的时候,你是想象不到的,你没有想到这样一个概率非常低的场景。

在建立平台的过程中也是踩了很多坑,包括面对大量数据的时候,刚开始,我们把数据做一些预处理全存下来,再去利用,到处理时才发现数据的体量非常的庞大,后来我们采用更好的队列方式去解决这样的问题。总体来说,踩过的坑还是很多的。

   

8. 最后一个问题,请您谈一谈AI平台是如何和大数据平台进行长期有效结合的?

姚唐仁:我觉得大数据应该是AI的一个基础。正好大数据的技术的发展在前几年,所以正好AI是有这么个基础。反过来说大数据,以前我们看大数据的时候,更多的是一些交易性的数据,或者一些日志性的数据,都是一些结构化的数据。AI领域中像计算机视觉这个方向,以前做图片和音视频的处理是比较困难的,但是大数据讲究一个大,这个大不是量大,而是说或者维度要多,以前维度比较少,正好AI补充了维度的一些数据,可以把把图片、音视频的数据进行标签化,进行结构化,这样可以真正的让大数据平台发挥作用,同样的大数据平台也为AI提供了一些支撑。

在应用方面,比如说城市的一些摄像头,大的城市有十几万个摄像头,原来的话,只能单点的去看一个摄像头里面发生了什么,正因为有大数据基础,我可以把一个城市,或者把一个区域,这样大规模的视频进行结构化,在大数据平台上做一些其他信息的关联和碰撞,这样宏观上解决了一些问题。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT