BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

霍秉杰:云计算与人工智能是“天生一对”
录制于:

| 受访者 霍秉杰 关注 0 他的粉丝 作者 InfoQ 关注 8 他的粉丝 发布于 2018年2月12日 | QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!
12:26

个人简介 霍秉杰(Benjamin Huo),青云QingCloud大数据平台负责人。具有10年以上行业经验,曾就职于金山、CA Technologies等公司。具有丰富的云端大数据技术的研发、使用及运维经验,对数据科学、机器学习和深度学习等领域兴趣浓厚,致力于数据科学及人工智能技术在云端的落地。

AICon全球人工智能与机器学习技术大会是由极客邦科技InfoQ中国主办的技术盛会,大会为期2天,主要面向各行业对AI技术感兴趣的中高端技术人员。大会将重点关注人工智能的落地实践,与企业一起探寻AI的边界。在AICon上,你将会看到国内外知名企业的人工智能落地案例,也能与国内顶尖的人工智能专家探讨相关的技术实践,使企业可以根据最佳实践确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。

   

2. 首先请您介绍一下自己的从业经历,还有您现在在青云主要负责的工作。

霍秉杰:我之前在国内的互联网公司和外企都工作过,比如金山、CA Technologies 和 IGT,做过企业软件,也参与过大数据相关的产品。我是16年加入青云的,主要负责青云大数据平台上的产品搭建、设计、架构这方面的事情。

   

3. 做云计算的厂商非常多,所以青云的竞争对手也很多,跟其他的云计算厂商的产品相比,青云的产品有哪些特点和优势?

霍秉杰:青云的产品传统的优势是IaaS层,我们在IaaS层有软件定义网络、软件定义存储,这些都是非常领先的,我们也是最早推出软件定义这个概念的。最近两年,我们也决心把我们的PaaS层打造成我们另一个优势,就是通过刚才我们分享的主题“应用开放平台”,通过这个平台把我们的PaaS能力暴露出来,暴露给广大开发者,用它来打造一个应用的生态,通过生态的力量使我们的用户能够使用到更好的服务和产品。这是我们的一个优势。

   

4. 您刚刚说到的青云的应用开发平台,它采用的核心技术能不能给我们介绍一下?

霍秉杰:核心技术最主要的就是QingCloud Application Framework,就是我们的应用服务框架,这个框架里面其实还包含了很多方面,比如元信息的服务,我们通过将开源的Etcd改造成Metad,来管理我们应用的元信息,再通过改造Confd来管理我们的Agent,这是元信息和应用集群节点交互这方面。从另外一个角度讲,我们的Application Framework还包含了一些和IaaS层调度相关的工作,包括管理应用的生命周期。一个云应用的生命周期可能包含启动、停止、创建、删除、重启等,可能涉及多节点多角色的集群,如果会涉及比较复杂的顺序问题,就可以通过我们这个框架很好地去管理这个应用的生命周期。另外客户可能有备份的需求,或者恢复的需求,我们这个框架也是支持的,只要用很简单的方式就可以把应用数据做好备份。另外一个就是升级,应用会有不同的版本,发布新版之后,旧版能不能升级到新版、通过执行什么命令去升级,这在我们的框架中都定义好了,开发者可以很容易地去使用。

   

5. 青云的应用开放平台是怎么去保证云端计算资源的合理利用?

霍秉杰:我们的框架具备弹性伸缩的能力,并且也将这个能力开放出来了,开发者可能拥有不同的应用,如果需要做垂直伸缩或者水平伸缩,可能会有不同的命令需要执行,而我们已经定义好了框架,开发者只要在配置文件里写好,在加节点的时候要执行什么命令、删节点的时候要执行什么命令,不需要关心云端的实现细节,这也是我们的一个特点。

   

6. 青云的应用开放平台是否用到了深度学习技术?如果有的话,是怎么去应用的呢?

霍秉杰:目前深度学习平台只是作为应用开放平台里面的一个应用,应用开放平台本身并没有用到深度学习技术,但是我们有计划在云平台的运维上引入机器学习和深度学习技术。比如说云平台的运维每天会产生很多的数据,我们能不能根据这个数据找到一些模式,预测什么时间和地点会比较拥堵、哪些地方容易出故障,然后通过这些预测能够使我们的云平台更好、更平滑地运行。

   

7. 深度学习作为应用开放平台上面的一项应用,它现在支持的机器学习框架有哪些?它能够支撑多大的计算集群规模?

霍秉杰:目前支持四个,比较流行的就是TensorFlow、Caffe,还有PyTorch,是今年Facebook新开源的,还有一个就是Keras,是基于TensorFlow顶层的一个框架。集群规模目前还不大,但是因为我们的节点和GPU之间是直通的,而我们GPU是非常强劲的,如果没记错的话,应该是16G的显存,所以计算能力也是很强的,大部分用户可能还用不到太大的规模。当然,我们也会持续监测用户的需求,如果他们后续有更大规模集群的需求,我们也会开放更大规模的平台。

   

8. 在青云的应用开放平台的搭建过程当中,你们有没有一些自己独有的经验可以分享给大家?或者遇到过什么样的挑战,最终是怎么解决的?

霍秉杰:我们经常遇到的一个挑战是,我们经常接触到一些开发者,他们会有各种各样的问题,但是后来我们发现这些问题其实都已经写在我们的文档里了,但开发者可能就不太爱去看文档,他们更喜欢当面和你讨论,比如在微信群里。为了解决这个问题,我们在文档方面也做了一些增强,把开发需要注意的地方尽可能写得更清楚、更明白,对用户更加友好,同时也会不停地更新文档。

   

9. 能不能请您分享一个青云应用开放平台比较成功的客户合作案例?

霍秉杰:比如我们交通行业的合作伙伴,他可能在高速公路上有收费站,就会有车牌识别和存储的需求。首先他扫描到一个车牌,然后传到我们云端的对象存储里去,通过对象存储触发异步处理框架,去调用我们开放平台里的车牌识别应用,而这个车牌识别应用其实也是我们的合作伙伴商汤科技开发的,通过这样一个过程就能够实时地存储、分析、识别海量的车牌。另外一个案例是我们和Face++达成了合作,他们的人脸识别、证件识别能力也已经发布到了我们的开放平台AppCenter里了,用户通过调用API就能拥有人脸识别和证件识别的能力。

   

10. 相当于你们双方合作之后,别的客户或者用户也可以在你们的平台上去用这些能力?

霍秉杰:对,其他客户在自己的用户控制台里创建Face++的这个应用,然后选择一个集群规模就可以用了,可以拥有完全的控制能力。

   

11. 请您谈一下对未来人工智能发展趋势的展望?

霍秉杰:这个题目有点大,但是从我们工程师的角度来讲,我觉得它彻底地改变了软件和服务开发和交付的方式。现在很多的软件其实都具有机器学习的能力,比如大家常用的一些东西,像新闻、音乐等,它们都具备识别个人兴趣和特点的能力,从而给你推送跟你特别相关的信息,这个我觉得是非常好的人工智能应用,我想以后的软件服务可能都会越来越个性化。在个性化和智能化这两方面,它彻底地改变了软件开发的方式和理念。

   

12. 您觉得云计算未来在人工智能的发展历程当中会起到一个什么样的角色?

霍秉杰:就像我刚才分享过的,云计算和人工智能可能就是天生的一对,因为人工智能是需要海量的数据和强大的计算能力的,但是这些东西,比如海量的数据只能存储在云里面,而强大的计算能力可能大多也需要由云来提供,所以他们两个是分不开的。

   

13. 您觉得现在青云的客户他们面临的最主要的技术挑战是什么呢?

霍秉杰:在人工智能方面的挑战有几点,我觉得首先是客户可能已经有一些大数据方面的投资,但是懂大数据的工程师,可能不是很懂人工智能技术,像机器学习、深度学习这些技术和大数据技术栈的结合可能也会有些沟沟坎坎,有不少东西需要探索,需要去思考怎么更好地利用已有的IT方面的投资,去和机器学习、深度学习这些人工智能技术结合起来。另外一个就是,像我刚才说的,我们的云平台运维也考虑通过AI技术去增强云平台的能力,也就是怎么对传统的软件和服务进行人工智能化的改造,使它能够具有一些个性化、智能化的特点。

   

14. 对青云本身来讲,你们所面对的挑战又是什么?

霍秉杰:我们面对的挑战还是挺多的,因为我们的竞争对手都是非常强大的,和巨头竞争每天都是挑战。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT