BT

您是否属于早期采用者或者创新人士?InfoQ正在努力为您设计更多新功能。了解更多

葛朋旭:阿里的个性化应用分发
录制于:

| 受访者 葛朋旭 关注 0 他的粉丝 作者 InfoQ 关注 2 他的粉丝 发布于 2017年4月8日 | 智能化运维、Serverless、DevOps......2017年有哪些最新运维技术趋势?CNUTCon即将为你揭秘!
29:40

个人简介 葛朋旭,阿里巴巴大数据领域技术专家&架构师,从业10多年,先后从事电子政务、电子商务、互联网金融等多个行业的系统架构设计和研发,对企业级JavaEE平台、在线数据SAAS平台、云计算平台等领域有丰富的实战经验。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

   

1. 你好,葛朋旭老师,阿里巴巴的大数据应用都有哪些,应用分发平台架构是属于你们大数据布局中的哪一块?

葛朋旭:阿里巴巴的大数据作为集团战略具有非常重要的地位,马云多次在公共场合讲大数据会作为未来的战略资源,像天猫、淘宝、菜鸟,整个阿里移动事业群都会把大数据作为基础的核心竞争点。像最近刚过去的双十一,大数据在里面扮演了非常重要的角色,应用分发领域在集团定义里面是属于连接用户跟业务的入口,它的定位是一个入口。

   

2. 跟推荐算法这些有关吗?

葛朋旭:它作为入口算法是非常关键的,现在包括BAT三家都在争夺入口,因为移动互联网领域用户红利在消失,消失的情况下,大家只有在入口地方取得用户的诉求,吸引用户,这里面个性化推荐算法是比较好的发挥价值地方。

   

3. 我们主要的终端是Android?

葛朋旭:现在整个阿里事业群的终端有很多种,像广东这边有IOS,也有Android的,在北京也有Android的,杭州可能更多端,甚至智能电视,VR,以及我们所谓的互联网汽车等应用。

   

4. 请您介绍下大数据的后端基础组件和基础设施,是基于开源的Hadoop吗?

葛朋旭:先讲一下我自己的理解,熟悉大数据的人都会了解,Hadoop是开源领域给所有技术人员提供最快的技术学习通道的开源框架,接触大数据都从接触Hadoop开始的,我自己也是接触Hadoop开始的,阿里这边是以阿里云作为基础的技术平台,会把类似Hadoop的平台在公司内部研发出来,大家看到阿里云在这方面有一些新的技术出现,包括新的算法,但是新的算法一方面服务阿里云,同时也通过开放的方式开放给业内所有的公司包括个人,相当于把整个计算作为一种公众服务开放出来。根据最近的一些了解,阿里云的计算平台也是融合了开源Hadoop和我们自研的飞天,两部分基础设施是合并在一起的。

   

5. 也就是说选择Hadoop是默认的事,它可以接受很多工程师的技术,资源,默认选择倾向于Hadoop?

葛朋旭:Hadoop平台一个好处是对技术工程师来说比较容易上手,社区比较完善,入门的资料包括学习的样例也比较丰富一些,但到一定规模的时候比如像一些电商或者金融平台,它利用Hadoop这种开源平台需要大量的技术工程师和运维工程师去保证平台的稳定性,而且还要搭建大量数据中心,这种情况下基于三方面的诉求,我个人认为用开源可能有一些限制,因为开源软件可以简单做到开箱即用,但要达到高可用和企业级,像金融业运维,还有很多路要走,在阿里内部应用分发是逐渐往阿里云这种基础设施靠拢的。

   

6. 我们回到个性化应用分发,它的目的和推送内容能否介绍一下?

葛朋旭:智能手机大家都有理解,从07年普及到现在将近十年,大家对早期的应用是获取一些新的应用和新的工具,现在手机越发展越快,制造越来越精美,大家在智能手机应用中的诉求越来越丰富,我们作为应用商店作为吸引用户的一个入口,不能单单让用户刻意去找一些东西,而是帮助用户发现一些更美好的东西,这变成我们应用商店满足用户诉求的产品设计要点,根据这个需求我们会在个性化分发和个性化应用推荐中会逐渐体现它的价值。当用户经常来商店逛的时候我们会发现用户更加喜欢什么,在用户不经意的时候给他一些贴近他个人生活需要的东西,这跟逛淘宝其实是类似的。

   

7. 你的意思是收集用户的Cookie这样的信息,比如说用户的浏览信息,比如他的生活状态是刚结婚,或者要小孩,他需要一些什么样的APP,然后你们会分析一些这样的东西?

葛朋旭:首先我们会保护用户的隐私,不会刻意收集他的cookie信息,但是用户在我们商店浏览、搜索或者下载一些应用的时候,我们会通过一些算法来分析这个用户可能的身份或者可能的喜好,根据他的喜好和属性猜测他下次来需要什么东西。应用APP在目前有几百万的量,让用户自己刻意找很麻烦,但是贴近用户的需求,通过个性化算法把用户想要的直接推给他,这对应用商店来说是吸引用户比较好的点。

   

8. 回到我们的算法,我们大家常见的基于内容的推送像比如Netflix、weibo或者是Amazon、taobao等,Netflix是根据用户浏览过的电影给他推荐,APP推送跟它们有什么相同点和不同点?

葛朋旭:从算法角度都是相似的,因为像Netflix它是用户对内容的消费,比如淘宝是一种商品,但是这种商品是我们现实的商品,应用商店推荐的是APP,它是用户需求的替代品、是一个聚合体,这个聚合体背后有更多的内容,像应用商店早期的推送是研究用户直接找哪些应用,比如说移动社交工具APP,慢慢的演化为根据健康或者群体推送APP,会把APP对应的内容抽出来作为推荐算法里考虑的很重要的维度。在算法上没有太大的区别,但是有一点区别在哪里,像淘宝上的商品用户买的时候需要付钱,但是目前我们的APP对用户来说获取以后不需要付费,它所谓付费或者带给游戏背后一些渠道商、中间商的价值更多的是一个入口,是把用户吸引过来,更多的用户喜欢它的APP或者玩它的APP,或者通过APP让用户关注它背后的内容,形态上不一样,但是算法上我们加上APP的的类型、APP基本属性反过来做一个统一的组合,然后再通过推荐算法把它跟用户的特征进行匹配然后进行推送。  

   

9. 你刚才提到游戏,能介绍一下推荐的一些经典案例吗?

葛朋旭:游戏这块我们作为应用商店不是充当游戏供应链的一环,只是满足用户的需求。游戏这边常见的单机游戏像愤怒的小鸟等,但游戏的不同形态或者不同的类型是满足不同群体用户的。我们应用分发平台更关注是什么样的用户,我在什么时刻给他满足他需求的推送就可以了。比如我们对学生群体,一般从平台角度来说,尽可能在假期或者周末推送一些满足他年龄,或者性别,因为男孩和女孩喜欢的不一样,尽量不会在工作时间或者学习时间把一些所谓的游戏推送给特定的群体,因为学生在非假期的时间还是学习重要,游戏毕竟是作为消费品。像一些上班族,我们也会满足用户的需求,在周末或者晚上适当的把一些热门的游戏推送给他。

   

10. 给大家分享一下您走上大数据这条路的经历吧,您是如何走上这条康庄大道的?

葛朋旭:我从业时间比较长,已经13年了,2011年之前我一直做传统行业,JavaEE这种企业ERP平台或者这方面的平台研发,但是在工作环节也接触过很多企业应用方面的DBA,包括所谓的商业分析方面的一些同事,包括行业的一些人,接触过程中发现数据逐渐变成更加重要的东西。在2011年我去了一个专门做数据Saas平台的公司,来到这家公司之后对大数据,还有大数据平台,还有数据库,从个人角度和公司的资源对这些东西有了从技术到整个实践全面的了解,是从2011年开始接触这条路。然后进入到蚂蚁金服,在蚂蚁金服数据平台组也呆了将近两年,首先把之前积累的开源的大数据技术路线弄的更扎实一点,在此基础上看到阿里巴巴大数据的技术,包括数据建模体系以及数据的规模。我最近这一年多除了夯实大数据平台包括架构这块,还对机器学习的算法以及深度学习,甚至在数据这个领域甚至到我们行业会逐渐形成图谱,这块的积累可能是更加长远的过程。我自己的总结是这条路虽然漫长,但是走对了还是值得庆幸的,走对了是未来十年或者二十年值得坚定走的这条路。

   

11. 您是非常有意识的选择了这条路?

葛朋旭:这个可能确实是的,这跟中国的教育有关,我们本科阶段更注重计算机教育和数学专业教育,偏分析的,但是在本科学习过程中,一般更注重教会单一领域的能力,但是从事IT或者从事互联网行业的时候会发现,一个人需要的技能越来越复合化。我早几年工作经验也类似于这样,我可以在技术领域做的非常好,比如说在Java整个平台前端、服务甚至到数据库,整个JavaEE级这条路已经摸的很通了,但是发现大数据领域还有很多要学的,数据领域又分技术架构和平台,当你有足够的数据的时候怎么通过计算的能力去发现里面潜在的价值,这部分需要我们更多的在机器学习、数据挖掘或者研究新型的像深度学习这方面有很多新的东西不断出现,我发现一个更新颖的领域,远远比我前几年熟悉的东西更加吸引我,对我自己来说还是比较好的选择。

   

12. 给我们infoQ的读者或者大数据的从业者一些建议或者一些忠告吧?

葛朋旭:不能说是忠告,就是自己的一些心得吧!数据这块作为技术人我们关注架构,关注一线的开发,一线的开发和架构首先是要先关注你的技术和开发是为什么服务的,最终有意义的东西是什么?举一个例子,这个例子可能不一定恰当,像sun公司提出Java开发语言,但是真正在这条路走的最好的公司是哪家公司?目前来说可能是oracle,oracle带给我们整个企业或者互联网,尤其是传统行业像银行,或者所谓B端的高端企业,对他们最有价值的还是数据这一块。这是对我们从事架构或者技术开发以及大数据研发的相关同事提的一个建议:当你关注技术和关注架构的时候更需要关注一些数据架构或者数据产品对真正的公司或者用户能带来的最有价值的是什么?你去想一想,当你想一想的时候,或者刻意留意数据里面的东西,比如说看到报表里面一些异常,这个异常背后体现什么东西?这可能要通过数据挖掘的手段简单分析,但是分析以后要继续琢磨,当然我也在摸索这条路,只是给大家一个建议!

   

13. 我们聊聊开源吧!开源对您的职业生涯或者说您如何看待开源对我们技术的益处?

源非常的支持。我接触大数据的时候,我在公司这边也是让大家第一手接触到hadoop这个平台,为什么当年Doug Cutting专门辞职几年不上班而自己把这套东西完全摸透最终写出来,这个还需要一个团队在里面非常重要。开源尤其在Java领域,对于所有的从业者是一个知识的源泉,开源这块在公司这边也是基于开源的思路,当然也会借鉴Google一些比较好的论文,研发出类似于云计算以及基础设施,我觉得在这块开源永远是我们最好的借鉴点。

   

14. 您对App分发的未来发展有何洞见?为何这样去思考?

葛朋旭:不是说是洞见,其实也是结合目前发展的趋势,2014年有几个元年:有人称为机器人元年,有人称之为互联网金融元年,我觉得从这一点可以讲讲移动互联网也是早几年提出的,应用分发既搭载了智能手机又搭载了移动互联网,当然互联网金融也是这里面的一个翘楚。应用分发随着智能化设备越来越普及,现在家里智能电视加上我们一些AI设备,比如说家里用一些扫地机器人、一些穿戴设备,随着这些设备的丰富以及它的计算能力的增强,上面肯定会引入分发这种形态,用户甚至可以通过一个穿戴设备或者用一个手势就可以获取想要的东西,这个东西可以在我的手机上或者电视上或者VR上获取,对分发市场或者分发平台一定要能够逐渐引入支持更多AI智能端的接入。内容方面也会从现有的APP、包括游戏逐渐往视频、音乐、小说走,将内容更多的丰富化,随着端的丰富和内容的丰富,还有一个中间的概念就是分发云,它里面会既保证传统的分发核心东西在,同时还要支撑更多的内容和更多端之间的交互,将来可能会体现两个概念:一个是NUI的交互引擎,它通过各种智能端或者穿戴设备,一个动作到分发云引擎里面可以识别出来,可以识别用户到底想要什么,这样NUI交互引擎才可以理解用户的意图,然后相对智能化的从我们的内容云里面把用户想要的东西拿出来的。它拿出来的可能不单是一个游戏,可能是一个游戏的视频,或者是跟游戏相关的音乐、跟游戏相关的攻略,游戏这个领域只是一个方面。我们现在更关注的是学生的群体,比如小孩子上学的时候,现在的小学跟我们当时上小学完全不一样,老师把一些作业通过手机通讯软件发到家长手机里面去,小孩子现在也有带一些智能手表,他也可以在上面留意老师是否留了作业,他在家里面作业的时候,一方面传统的写字,算术题,还有一些作业是在电视上看一些视频,比如英语和语文的教学,有时候让小孩子打开一个智能手机可能不太方便,假定他带着智能手表简单一操作就可以把想要的东西,想要学习想要的东西在电视上就可以操作。学校发的光盘在电视上直接放就可以了。这个过程肯定会被分发领域重量级的应用替代掉。

   

15. 最后一个问题,这次所分享的项目,您认为阿里应用分发最大的创新点,同类产品中最具有竞争力的亮点是什么?

葛朋旭:我讲一下这次分享,我们这次来的分享很多是来讲特定云架构的技术难点,我这次更多是来讲应用分发领域,它应该属于智能手机移动互联网领域入口级的应用,在这个领域里面我这次的分享不会带着大家直接去看我的架构用了多少牛的技术,架构设计的有多好,而是先看我的用户群体是什么,用户诉求是什么?然后进一步的挖掘在应用分发里面应该怎么更加关注它,从系统架构包括数据平台架构以及数据建模体系怎么满足他的需求,这是应用分发领域区分于纯技术类或者纯细节类的技术分享差别的地方。

   

16. 好,您还有什么补充分享吗?

葛朋旭:更多的大家可以关注一下我们12月20日阿里移动应用分发在北京有一个新的发布,大家可以更多的关注一下!

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT