BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

王栋:美团的智能化推荐
录制于:

| 受访者 王栋 关注 1 他的粉丝 作者 魏星 关注 0 他的粉丝 发布于 2015年7月17日 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!
24:24

个人简介 王栋,现居北京,美团网技术总监,负责搜索、推荐及数据应用方向。2009年博士毕业于清华大学人工智能实验室,研究机器学习算法及计算机视觉的中层语义表示问题。毕业后先后任职于hulu及优酷,主要从事网络视频中的搜索、推荐、广告等流量变现工作。曾多次带队或参与TRECVID/KDDCUP等国际机器算法竞赛并取得第一名,2011年带领团队搭建出世界上第一个实用的视频人脸标注系统(hulu face match www.hulu.com/labs/tagging)。属于国内推荐系统的早期关注和研究者,对视频搜索有丰富研究经验,也完成了展示广告的流量预估,在线匹配及用户定向等多项技术。目前关注O2O领域中的数据、算法及平台化问题,期望借助智能技术,更方便快捷的满足用户吃喝玩乐的需求,同时助力商户理解其目标用户,发现并促成商机。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 我对清华大学人工智能实验室的认知是从AKA Linux小组开始的。您能谈谈在那里读书时候印象深刻或者比较有意思的人和事吗?

王栋:要说到人智实验室,不能不提的一个最重要的人物就是我的老板,我的老板是张钹老师,可能过去大家都叫他‘张拔’,叫了很多年,实际上他叫张钹。3月底4月初的时候,我们刚去给张老师过了八十大寿。他是让我非常佩服的一个研究者,因为他47岁的时候才开始做研究,因为他们这一代人早期没有机会做研究。张老师当年成绩非常好,当年他高考的时候,数学、物理、化学全部都是100分,所以是个绝对的学霸,是全国级的学霸。所以张老师对学生的要求,要读博的话,至少要先把别人的知识掌握好、了解好,所以他对学生成绩的要求很高。我很有幸能够在他还在执掌这个实验室的时候加入。因为张老师是这个实验室的元老,最早造这个实验室,包括做最早的一些机器手,国内其实第一个机器手就是我们这个实验室做的,张老师带着人去做的。后来像马少平老师、朱小燕老师都是这个实验室后来的一些主任,他们在这个实验室里面营造了一个非常好的研究气氛。当时最早的时候它是在清华大学一个楼的四层,占了整整一层,这个楼里所有的人都可以很开心地找人聊天,有专门的会议室,相当于一个大家庭。我进去的时候,实验室刚刚开始要做视频这个方向,为什么要做呢?因为张老师自己之前其实有很强的一套人工智能方法,他觉得在大数据上,那时候的大数据,也就是相当于视频的数据,收集的手段还没有这么多,在视频数据上,底层的量是很大的,但怎么能抽象得到真正语音概念的一些表示,是他很关心的一个问题。当时我们自己也没有太多这方面的经验,更多的是让学生自己去想一想,当时我们也是自己组织了一个类似于paper reading的seminar,或者说一个兴趣小组,很多人一起读文章,然后找方向,这个经历还是蛮有趣的,张老师强调,做博士最重要的一个能力就是,一定要自己能够发现课题,认定课题的价值,然后再去做。博士如果你能够把这个选题做好,你已经成功80%了。我们当时也花了很长时间,一直在探讨之中,因为这个方向之前国内做的人也不多,我们实验室最早做的事,比如说怎么下围棋这种程序也写过,汉字识别也写过,这些事情都做过,但是视频是一个全新的挑战,我们也是花了蛮大精力去寻找这个方向,这个方向里面有哪些点是可以做的,这块是挺有趣的。

   

2. 读博的时候在张老师的指导之下,基本上培养出了一套比较完整的探索的能力,包括解决问题的能力。

王栋:是的,有的老师可能会直接把一个课题扔给学生,说你去做吧,这其实不是博士,他是硕士,他只是在完成一项指定的任务,而没有独立探索的能力,这点我觉得是一个博士最需要培养的。

   

3. 这对你后来参加工作之后也有很大影响吗?

王栋:这有很大的帮助。

   

4. 您曾经多次带队或者参与过这种国际机器算法竞赛,都取得很好的成绩,因为清华那边底子就很好,我想问一下这些比赛到底都是一些什么样的比赛?您为什么对这种国际算法比赛感兴趣?

王栋:其实我们当时参加的比赛主要有两类,一类叫做TRECVID,TREC是国家标准局办的一个国际测评,它其实不是比赛,它的benchmark就是大家一起把算法提交出来,看一看效果谁最好,但是这个比赛是没有第一名的,只是一个比较,看怎么样能够把这个事做好,不像后来CARGO或者KDD Cup这样,它是一个在线实时能看见反馈的一个比赛,更强调竞赛,而这个更多的是一个探索和研究的事情,但是大家其实也会去参考别人前一年的做法,去了解很多新的想法,学术界的一些想法,工程实现上做一些新的改进,这块收获还是挺大的。因为你要盯着这个东西去看,你需要很深入很细致地去考虑问题,它的方方面面,比如说特征的提取,什么样的新的特征是比较有效的,可能会产生什么效果,什么样的特征对这个组合会比较好一些,因为当年也没有DN这样的一些比较先进的方法,基本的特征提取是要靠人肉的。

   

5. 这样听起来有一点点像现在互联网公司里面比较流行的黑客马拉松。

王栋:它的周期会很长,我们当时一般做一次比赛,会要花两三个月的时间,往往是在暑假,暑假之前我们会大概确定几个方向,觉得这个是可以做的,暑假的时候其实是从清华的本科生里面找一堆SRG的学生,这些学生本身可能素质很好,但是就是没有接触这方面的经验,还得先培训,每人去给他讲大概1-2节课,培训他们两个月的时间,到了暑假,他有时间了,一起来搞,基本就是一个月的时间,8月多就提交了,在这个期间就不断与去年的基础相比,调效果,做得也还不错。

   

6. 有点像那种封闭开发的感觉,现在互联网公司有很多产品、很多项目都是封闭开发。

王栋:有点像吧,但是它没有那么强的压制性,更多的是探索性的,所以你自己对这个问题很感兴趣,所以可能半夜都不睡觉,你也会去想这个问题,如果有什么小点子你会记下来,过程是蛮有趣的,而且在这个过程中,也跟国际上很多专家同行建立了比较好的联系。所以做出来结果确实比他们好,他们也会问你到底怎么做的。遗憾的是,我们两年都拿了第一,但是一直没有机会去跟同行出国交流,因为项目经费或者出国会议申请的一些原因。后来参加的像KDD Cup这种是在公司里面,也是跟几个同事一起搞,第一次是2009年的Orange,是法国的一个电信公司,其实跟现在互联网经常做的一些事情也是蛮像的,它会邀请你去预测一个用户会不会离网,就是不用你的手机号了,从联通换成移动了,或者他会不会买一些高的流量包,比如说之前可能用100M,会不会买1G的;或者他会不会再去买别的类似的一个产品,就是像cross sale和up sale,它给了很多的特征,基本上这种学习竞赛的方式是蛮类似的,大同小异,所以当时也是比较有兴趣,之前有积累,所以就跟他们一起搞一搞,但是后来觉得搞多了也就那么回事了,也就不再做了。

   

7. 2011年,您说带领团队搭建出了世界上第一个实用的视频人脸标注系统,您能不能介绍一下这个系统里面用了哪些比较尖端的技术?它的主要应用场景在哪里?

王栋:这个是当时我们在hulu,hulu是一家视频公司,它主要是做在线高质量视频,比如说电视剧或者访谈节目,有蛮多的用户在线上观看,我们也希望通过这个工具让用户能比较方便地看到,比如说对某个剧情可能不太了解,或者对某个人物不太了解的时候,能提供一点辅助,这个项目并不是属于公司比较核心的业务的方向,更多的是一个有意思,能够有一些外部影响的项目。当时有一个朋友在Facebook上在做类似的人脸标注的系统,对他们来说,这个业务的意义是比我们这个要大很多的,因为他要做社交,通过这个方式你其实可以宣传一些好友,增加他的活跃度,这也是比较直接相关的东西,而我们做的更多的是一个兴趣,之前比如说我们做了很多的人脸识别,人脸检测相关的技术,这块要把它拼到一起。流程上,你先要从一堆视频的流里面detect到人脸,然后再对detect的这个人脸去做前后跟踪,跟踪完以后拿到一个轨迹,连续多帧的一个人脸轨迹,这个轨迹你其实肯定是希望能够自动识别,我们当时的技术能力还达不到,所以只能是把它聚成一些类,聚类的话它会有一些前后的关系,比如说同时有两个人在视频里同时出现了,镜头来回切换,这种情况是很常见的,或者它那个主角可能就这么几个人,之前一集穿的衣服是什么样,这一集穿的是什么样的衣服,他们也会有一些相似性上的体现。人脸序列里面其实可以抽出来一些特征的,会把这些特征再去做一些匹配,然后做序列的比对。回想起来,如果今天做的话,其实用DN的方式做可能会更为自然一些,就是得到这个序列之后,直接比对序列的相关性就更自然一些,当时我们还是采用比较传统的序列的方法。聚完类以后,还加了一些人工的标注。

   

8. 那个标注听起来,感觉就特别像看美剧或者电影,字幕组不但翻译字幕,而且会把一些俚语在上面标注出来。

王栋:是的,我们当时其实想做的事情不仅仅是在做人脸这一块,人脸其实只是第一步尝试,期望是做到,比如说这里面出了什么包包,有什么好看的衣服,也都能标出来,这样标出来可能会刺激用户购买,但是细想起来这个场景,并不是那么的好用。因为第一,它不是一个直接有用户购买欲望的一个场景,第二,有一些从人脸到衣服再到包,这个之间的距离还是蛮长的。最近爱奇艺也在做类似的技术,感觉跟这个还是比较相关的。

   

9. 你们之前做的有点像现在有一些公司做那种VR,比如说可能应用场景不一样,有些是做道路识别的,走到某一个路口,它会告诉你什么地方该怎么转,出国有语言障碍,它会自动翻译成你所能理解的语言。

王栋:对,有点类似的,我觉得背后学习的算法可能差不了太多,更多的是对这种领域,比如你刚才说的语言,或者说语音,或者像我们做的这个图像,图像里的类型就多了,人脸是相对来说比较好识别的一类,有些形状都不固定,比如说电线很细,或者像火,就是蛮难去处理的一些东西,但是在实际中也都会有应用。所以当时其实是想能推广,但是后来因为这个项目本身,用户使用量也不是特别大,大家认为这是一个可有可无的add-on feature,但是还是蛮有趣的一个事情。

   

10. 现在淘宝上很多卖家打出某剧的某同款衣服,说阿里去做这个事情,它就比较有目的性。

王栋:阿里现在搞了优酷,跟优酷在一起他们做这个事情其实是有前景的,而且就像之前《舌尖上的中国》一播出,就在晚上十点左右的时候,淘宝上卖类似的东西的销量是爆增的,所以两个之间是有一些相关性。但是因为hulu本身不具备这样一个渠道,所以它做起来不太能直接应用。

   

11. 您现在在美团负责搜索推荐和数据应用方向,请问商品的推荐跟平常在互联网上用的内容推荐以及广告推荐,有哪些异同?在技术实现上各有什么特点?

王栋:商品推荐跟传统电商是蛮像的,一些重要的差别在于它的消费,因为它本身是一个距离受限的消费,所以我们会更多结合用户当时所在的一个场景来对他进行推荐,比如他正在逛街,我们不会给他推一个包邮的小吃,而是会给他推附近看电影的地方,有一个可以喝茶的地方,所以从用户的场景上肯定是跟他当前的状态,上下文结合的会更紧。

   

12. 广告推荐以及内容推荐,比如豆瓣上面浏览一些东西,它会给你哪些推荐。另外就是广告推荐了,比较简单的就是Google内测的那个。

王栋:因为搜索广告本身是一个很专门的话题,广告推荐只是它其中的一部分,等于是它要去发现更多的候选,因为刚开始你的关键词和你搜索的查询词不一定匹配,所以你要把它尽可能扩大,扩大到能召回更多的可用的广告,它在广告里主要是做这一部分,真正起核心作用的是最后展现的一个,这块还要重新做一个排序,而我们这边做的推荐其实也会经过扩大召回这一步,但是我们最终的目的是让用户去购买这个东西。

内容推荐其实需要考虑语意的层面,我了解豆瓣用了一些Tag,就是标签这样的方法,近似地去表示语意。

   

13. 其实新闻推荐也是这样的。

王栋:是的,现在做的DN这套框架,它可以提取一些直接语意的向量,是可以对这个有些帮助的。其实对于我们来说,这种基于内容的推荐方式也是有用的,往往会在比较冷启动的情况下去采用。

   

14. 他们在考虑这种算法上,你觉得核心算法上差异应该不是特别大,对吧?

王栋:最基本、最经典的算法是依赖于用户的行为,所以这些算法都实用。

   

15. 搜狗的王小川和王兴做了一档节目,其中有一部分内容是谈到“猫眼电影”。大概意思就是说,现在的互联网大数据技术对电影票房的预测还不是那么精准,因为王兴说“猫眼电影”已经垄断了电影卖票市场90%多的市场份额,但是依然不能对电影票房预测做到比较准确。去年世界杯期间,Google和百度也都对世界杯的结果进行了预测,但实际上结果也不是那么理想。您能不能举例说明一下美团在数据应用方面,做了哪些研究或者取得了哪些成果?

王栋:这个问题可以接着前面,其实我对前面的话题更感兴趣,就是“猫眼电影”和世界杯预测的区别,因为“猫眼电影”我们最近也恰巧在它的票房预测这件事情,我们感觉在一些特定的条件下,其实这件事是可以做的。比较有利的一点是,“猫眼”有一个可以自我实现的方式,即使我预测得高了,我可以预测出来一个结果。如果我真的对这个市场有一定的影响力,我可以通过我的一些技术手段,把它的搜索结果或者其他的一些结果,可能有一些展示曝光。甚至比如说我们预估这个片子确实是效果很好,片方给它的投入资金也会更多一些,在发行的时候会有更多的资金投入,下游的影院去排片可能也会受这个影响,那我多排一点片,那看到的人多了,这帮人会去影响他周围的人,会产生一个自止的自反映射,就是你的结果会被你预测的结果所影响,这个在股市里面其实是有类似的情况。但世界杯这个,我不觉得我们的预测结果能够对世界杯产生什么样的影响,当然如果你说这里有一些赌球、资金后台等就不好说了。从这个角度讲,预测的难和简单其实是在这个地方。如果涉及自己跟自己会产生影响的话,就是一个很复杂的系统,不太好预测。如果预测这个结果对它本身没多大影响,而你又有一些合适的特征可以去描述,那这个事就是可以做的。

然后就是你刚才说到的我们自己做了什么样的事情,我们核心的事情主要分两块,一块是C端用户的流量转化,包括像搜索、推荐、浏览排序,这个都是我们在做的。还有一些就是类似于跟用户运营相关,跟入口相关的,我们有做一些优化。在B端其实更多的是关心像刚才“猫眼电影”的票房预测、销量预测,或者是一些后台数据的展现以及一些分析,因为这块也是智能技术可能会有一些帮助的地方,去帮助我们销售团队,帮助我们后台运营团队,能更快了解到市场的变化。现在美团有一千多个城市,不可能一个人去看一个城市,或者一个人去看两个城市,去分析,怎么样能让这些信息更快地转化成知识,能更多的让大家去了解这个情况的变化,相应的做出决定,这也是很有意义的事情。

   

16. 我看到美团技术团队有一个微信公众号,上面也会隔三差五分享一些比较好的东西,我想问一下你们在内部怎样进行团队文化建设以及学习分享交流?

王栋:我自己平时会看一些公众号,我看到美团技术团队有一个微信公众号,上面也会隔三差五分享一些比较好的东西,我想问一下你们在内部怎样进行团队文化建设以及学习分享交流?

   

17. 这个沙龙计划多长时间一个周期?

王栋:应该是一个月,正在筹备之中。

   

18. 你们内部分享都分享什么?

王栋:我们每个季度也都会有一些成果产出,有产出之后,我们会去看是不是可以发一个微博,发一个微信,搞一个技术博客出来,大家去写,写完了以后其实要经过很严格的review,就跟发文章是类似的,很多技术的讲法究竟合不合适,写得是不是通俗易懂,有些人是不是能读得懂,都是要经过很严格的评审的,所以能够选出都是很高兴的个事情。

   

19. 你们会不会有一些黑客马拉松的东西?

王栋:有,我们之前是一年两次,春季一次,秋季一次。工程师平时确实做了很多的需求,有些小郁闷,想按自己的想法做一些新的产品,而且我们也发现,在这个过程当中有很多很有意思的想法,其实是可以复制到产品当中的,有些是已经上线了。这个文化我们觉得还是很不错。美团我觉得有点像亚马逊的风格,但它会比较强调你要自己run自己的东西,你从业务需求的理解到后面方案的制定,到代码的编写,到内部的自测,最后的上线运维,基本都是你自己搞,对工程师的锻炼还是比较大的。跟其他团队相比,交流也会更容易一些,因为你能够站在别人的立场来考虑问题。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT