BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

丁若谷:用户画像是共性需求,仍处于尝试摸索期
录制于:

| 受访者 丁若谷 关注 0 他的粉丝 作者 infoQ  他的粉丝 发布于 2017年3月28日 | QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!
22:26

个人简介 丁若谷,明略数据技术合伙人,带领团队进行数据产品的研发,成功帮助多位企业客户搭建了大数据平台,从数据中为客户挖掘出匹配业务需求的用户画像,创造业务价值。在加入明略数据之前,曾就职于秒针系统,担任算法团队负责人,主要从事跨屏打通等核心算法的研究。2012年于沙特阿拉伯阿卜杜拉国王科技大学取得计算机科学硕士学位,2009年于北京大学取得智能科学与技术学士学位。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 丁若谷先生您好,在大数据如此蓬勃爆发的年代,您为什么选择用户画像这么一个细分领域?

丁若谷:这其实不是我们自己的选择,是我们跟客户打交道的过程中发现很多客户有类似的需求,这是一个共性,我们把它单独出来作为一个比较重要的部分做了研发。

   

2. 可以这么理解吗?您做大数据的过程中根据客户的反馈的共性选择了做用户画像?

丁若谷:是的,这件事情是我们发现很多场景下会有用途、会产生业务价值,觉得这里面涉及的技术比较有趣,所以做了这个细分领域。

   

3. 明略数据的定位是大数据解决方案提供商,您做的业务当中最广泛的业务应用是哪些?用户画像在其中的比例是什么情况?

丁若谷:用户画像在明略所有业务当中并不占特别大的比例,明略本身做的比较多的是比如说公安行业、金融行业、制造业、地产行业,这些行业里面用户画像所占的部分是跟营销或者风控相关的一小部分。

   

4. 我们最为广泛的应用都有哪些?明略数据本身业务的应用?

丁若谷:我们的业务比如说制造业做设备故障的预测,比如一列高铁有很多传感器传输数据,通过这些数据的分析来预测哪一列车最有可能在下一次开的时候会出故障,可以提前去做检修,再比如金融行业风险的预测,或者说客户评估的建模,哪些客户有比较高的价值,哪些客户风险大价值小。

   

5. 这个我突然想到,比如说我拿一张信用卡去商户刷卡,我们能做到实时风控吗?短短几分钟我们能判断出风险吗?

丁若谷:说这个事可能敏感一些,风控其实是有技术门槛在里面的,可能我们做的更多是离线的帮银行做一些分析,并不是实时的在线提供这种风控辅助。

   

6. 我们谈到这次分享的文本数据,它在金融和地产行业当中是普通存在的存储类型吗?按照常理我们一般认为它会把这个东西放在关系数据库中存放。

丁若谷:这个其实不矛盾,文本数据也可以存在关系数据库当中,我碰到很多客户就是用关系性数据库存储文本,会在oracle里面放它的贷款调查报告,可能一个字段几百字节都有,具体做分析的时候关系型数据库决定我们用什么方式提取这些数据,如果提取的是文本数据我们有一套分析方法,如果是结构化数据有另外一套分析方法,这是后续分析的不同而不是在于提取的过程中的差异。

   

7. 也就是说你们不在意客户一开始的数据是放在文件系统上还是放在关系型数据库,你们都是无所谓的,对你们来说是一样的?

丁若谷:对,换一个说法,即使你放在文件系统上也有可能是结构化的数据,比如说有可能是数据库的一个导出,这个导出里面可能都是一些数值,它就是结构化数据,虽然它是在文件系统上的。

   

8. 我们能用一个实际的案例描述用户画像的步骤和处理方式吗?

丁若谷:这个跟我分享当中的内容有一些相似,举一个最简单的例子,比如说给银行找出所有可能买某一个高端理财产品的土豪,我把土豪细化一些,比如他的存款余额大于100万,设他的教育程度低于初中,然后我在数据库中用一个SQL语句就能把符合这两个条件的所有的ID列表给找出来,当数据量比较大的时候,我们会用一些特定的技术做优化,让数据能更及时的被取出来。当这个数据涉及到文本数据的时候,我们会预先计算一些其他的标签,帮它把这种数据提取出来,整个过程中我们讲的用户画像是比较广义的用户画像,而不是仅仅限于分析他具体买过什么东西就产生了什么样的用户画像。

   

9. 用户画像网上资料比较少,有一个案例是一号店王富平老师的分享,我们的明略数据做的用户画像跟他们做的有什么不一样的地方?

丁若谷:一号店的用户画像我们看到了,之前在做各种准备的时候也参考过,但是没有特别留意是哪位老师分享的。一号店的用户画像更多的是基于用户在一号店站内的购买、浏览行为做出来的,它的数据价值可能更高一些,因为离它产生购买的行为决策更近,但是另外一方面它的数据可能和客户本身自己的属性偏离的更远一些,因为你去做用户的浏览购买其实都是基于用户在你的网站上的身份的标志的,这个身份可能是一个家庭里面互相串着身份去买的。明略做的用户画像是给有自己数据的企业提供服务。比如说像金融机构、或者地产公司,他们的数据和身份有更强的绑定,他们的数据可能反映在价值上跟他的日常其他的特征更相近一些,而不是跟他日常采购的行为更相近,所以我们做的用户画像范围更宽泛一些,覆盖到更大的外延,而不是针对他的购买行为做的分析。

   

10. 明略的数据更通用一些。

丁若谷:对,更通用一些。

   

11. 举一个互联网的例子,现在豆瓣网每年会根据你这一年读过什么书,看过什么电影,给用户推送一些内容,比如说电影看了什么片子,如果这个东西跟企业级(比如地产)结合怎么准确定位用户画像?

丁若谷:我们现在做的事情也有一些非常有意思的事情,比如我们给一些地产行业做分析,看它的客户在房产偏好上是喜欢看朝向更重要一些,还是面积更重要一些,户型是两室一厅还是一室两厅还是开间,是喜欢板楼还是塔楼。这些事情在房产行业,它所关注的更多还是跟行业本身更有关的一些属性。同时还会对用户本人家庭情况做一个关注,比如他是单身还是已经有一个小孩,还是准备要两个小孩,还是正在给已经长大的小孩买结婚用的房子,这是地产行业更关心的一些画像。举这个例子可以清楚说明在企业级用户关注的是什么样的内容。

   

12. 突然引发我一个问题,这些数据的录入,跟实际客户接触是通过互联网APP还是直接交给业务员,用户更喜欢什么样的渠道?

丁若谷:这些更多的是客户本身有一些类似的渠道跟用户接触,比如开发一个APP给客户选房,选房过程中可能用户更多的关注朝南的方向,他会去做筛选,发现这个客户如果天天在找朝南的房子,就会认为他对朝向更在意一些。还有一个很重要的部分是他们会做一些数据的交换,比如说房地产行业有一些企业会跟互联网的企业做数据的交换,会发现在什么样的人口属性人群当中他们的客户更多,他们就会对人口属性会更关注一些。

   

13. 在整个大数据分析当中数据搜集明略做吗?

丁若谷:我们基本上不做搜集。

   

15. 接下来一个比较技术性的问题,我们在文本数据的收集、存储和建模当中用了哪些常见的算法和一些开源框架?

丁若谷:在存储、收集这几个层次文本数据和结构化数据基本技术上都是相同的,比如说底层大数据平台用Hadoop,上面有yarn做资源管理,zookeeper做资源调度,有Hive数据仓库、用elasticsearch做搜索,基本都是通用的架构。具体到文本上用的比较多的一个是在spark上面跑的一些文本算法,比如用MLlib跑学习学习的算法,可能独有的是用ansj做分词,会有word2vector,这是文本独有的东西,但整体来说里面最主要的部分还是跟结构化数据通用的这一套架构。

   

16. 数据可视化这块呢?

丁若谷:可视化这块跟大数据相对来说更远一些,是两个层次的东西,我们用的比较多的D3这个可视化框架,明略自己也开发有discovery产品做可视化。

   

17. 您怎么看待Hadoop这种生态系统,或者说这种开源系统,谈谈您对开源生态系统的理解?

丁若谷:明略对开源社区还是拥抱开放变化的态度,明略包括所有的大数据的平台都是基于社区版Hadoop去做的,不会像Cloudera一样投入去做一个完整独立于社区的版本,否则你要跟随社区的脚步是非常困难的事,每次社区出一个新的bug fix你要赶快集成到自己的发行版里面。明略更多的态度是直接用社区版的Hadoop,然后在上面做松耦合组件的集成。比如说在上面做集群的管理,包括做数据的访问权限控制,全都是基于开源版的社区的Hadoop,这样当社区的Hadoop升级的时候明略可以很轻松的把脚步跟上去,同时当客户想更换发行版的时候不会被特定的发行版所捆绑,换成其他的版本是非常方便的,因为我们本身现在做的基本上就是社区版的Hadoop。

   

18. 如果有一些客户对社区版不满足,需要定制呢?

丁若谷:这也是非常大的一部分,明略也会把在使用社区版中遇到的问题回馈给社区,让我们跟开源社区绑定在一起,我们遇到的问题也是开源社区的问题,我们把它解决了也相当与给开源社区贡献了bug fix或者一些改进的新的特性,现在公司里面也有很多的开源社区的contributor和committer,他们也在深度的参与开源社区的演进。

   

19. 我们知道大数据需要很强大的计算能力和存储能力,我们这边的基础设施方案是如何解决的?兼容在aws上跑还是阿里云上跑还是私有云上跑还是一些虚拟化平台上面跑,我们怎么考虑的?现在的状况是什么样的?

丁若谷:这是我们一开始做大数据平台时就考虑到的问题,我们一开始是基于青云做的虚拟化的适配,后来AWS、阿里云这些主流厂商也做了适配,基本上市场上主流的云服务和虚拟化服务跑我们的大数据平台都是没有问题的。

   

20. 有很多敏感的行业,数据不会让你放在云上,这个怎么处理?

丁若谷:我们原生的大数据平台就是部署在物理机上的,都是在客户的私有的服务集群上部署的,明略本身最主要的业务就是在客户的现场做私有化的部署。

   

22. 最后一个问题,您能做一个预测吗?现在的用户画像未来是什么样的?以及可能涉及到的用户隐私这些问题您是怎么看待的?

丁若谷:明略自始至终坚持的就是私有化的策略,数据本身是企业所有的,你有这个数据,明略给你提供服务帮你做分析,数据大多数情况下是在你自己的环境下不出来的,这跟其他的做Saas服务的企业有区别,明略坚持以私有化为主,你的数据只要不出来,使用数据的授权就是客户的问题。大多数的客户有类似的授权可以在自己的环境内做这种分析。要做用户画像也要考虑到用户隐私,比如有一些非常敏感的东西即使在内部也不太适合去做,比如信仰、种族这些事情也是大家保持很高的敏感性不去碰的事情。

   

23. 对用户画像的未来您觉得它会越来越重要吗?

丁若谷:用户画像的市场是处于成长的前期,现在大家认识到了用户画像的重要性,对于如何做,以及它做出来怎么发挥价值,正在处于尝试摸索的过程,相信未来这个市场肯定会有比较大的成长。

   

24. 我想起一个经营上的问题,您刚才说专注于私有云,可能遇到的情况是每一家地产和金融企业不一样,我们的数据科学家和数据工程师可能工作量大,成本比较大,这样的问题怎么解决?

丁若谷:这是一个很重要的部分,我们基本的策略是把各行各业中可能遇到的事情尽量抽象化、通用化、组件化,把最常遇到的事做建模做成一个工具。我们有一个产品专门做数据挖掘,你把它部署之后可以用拖拽式做一个模型,把数据挖掘模型布出来,这样可以极大减少数据科学家现场的工作量,虽然数据科学家不可避免要在客户现场做一些工作,但是可能原来需要做两个月的事现在需要做两天,这样成本就降低很多。

   

25. 非常感谢丁若谷接受我们的采访!

丁若谷:非常感谢给我们这么一个跟大家交流的机会!

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT