BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

李小龙:链家一站式数据管理平台的发展与展望
录制于:

| 受访者 李小龙 关注 0 他的粉丝 作者 InfoQ 关注 9 他的粉丝 发布于 2018年5月21日 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!
06:29

个人简介 李小龙,链家网大数据架构师,负责链家大数据工具平台相关系统的研发。2012年从武汉大学研究生毕业之后,进入到百度,在百度的时候是从0到1搭建了百度的客户数据仓库,并且进行了大数据平台的研发工作。之后在2016年加入链家,在链家的时候进行了链家大数据平台的建设,目前在链家的数据智能部负责链家的大数据平台的研发和数据产品的研发工作。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 李老师您好,感谢您今天来参加我们这个专访,首先来请您做下自我介绍。

李小龙:您好,我是2012年从武汉大学研究生毕业之后,进入到百度,在百度的时候是从0到1搭建了百度的客户数据仓库,并且进行了大数据平台的研发工作。之后在2016年加入链家,在链家的时候进行了链家大数据平台的建设,目前在链家的数据智能部负责链家的大数据平台的研发和数据产品的研发工作。

   

2. 首先请您介绍一下目前链家有哪些业务,数据平台需要支持什么需求?

李小龙:链家目前有五个方面的业务,主要体现在二手、新房、租赁、旅居以及海外这五个业务线。我们数据平台对这些业务线的支持主要体现在两个方面:第一方面是首先对这些业务的业务驱动、数据需求,我们会提供各种数据需求,主要支持BI建设方面的数据;第二个方面,我们支持的大数据平台底层的建设,这方面举个实际例子,比如我们有实时计算这样的底层能力,可以支持业务线做一些实时推荐的业务场景。

   

3. 能否介绍下目前链家大数据平台的发展几个阶段?包括数据量级以及当时所使用的技术进行了哪些迭代?

李小龙:链家的大数据平台可以归为三个阶段:第一阶段就是从2015年到2016年中期,这个阶段链家主要是开始搭建Hadoop集群,开始进行数据的建设,当时的数据量在500TB左右,主要使用开源的一些组件,包括Hadoop、Have、Oozie[有修改]这些开源引擎。

第二个阶段从2016年中期到2017年8月份左右,这个阶段我们主要进行了大数据平台的自研,我们开发的一站式数据管理平台, adhoc ,数据指标报表平台等,在这个阶段我们的数据量达到了4PB,整体的任务量达到了一万左右,这个时候我们使用的技术是开源和自研进行结合。

第三个阶段是从2017年9月份到现在,我们重点进行的数据仓库2.0的建设和实时计算平台Data-pipeline的建设,同时我们也进行了其他平台产品的优化迭代,包括我们从0到1建设的流量分析平台以及数据质量监管系统。

   

4. 实时数据和离线数据是如何处理的,之后如何整合?

李小龙:离线数据我们主要是使用我们自研的任务调度系统,通过Hive SQL,通过Shell等类型进行处理,处理后的数据,我们可能会存入MySQL,Kylin,Hbase等各种不同的DB。实时数据目前我们是通过Flume收集到kafka集群里面,使用Spark Spring这种实时计算引擎进行一些处理,处理后的结果可以存入这个Redis、Druid、Mysql等各种引擎。目前,大部分的链家的业务场景还是使用离线的计算,我们也在进行大规模的实时的一些产出,这方面后续我们会把一些业务上对实时要求很高的业务场景进行实时数据的建设。

   

5. 链接的租房和卖房服务,都是时效性比较短的数据,如何处理大量的冷数据?

李小龙:从两个方面来看,首先第一方面,我们目前正在做整个数据全生命周期的管理,对于一些用不到的数据,比如两三年之前的一些冷数据、没有访问的数据,目前我们是进行了一些压缩存储,降低存储成本。同时我们也在调研,是不是有更低的存储介质,把这些冷数据存入这些存储介质。

另一方面,链家的买卖交易数据,并不是说都是有效期很短,因为他们在两个方面会发挥价值,第一方面是在宏观统计层面,比如我们研究院推出的数据产品叫 RealData,可以在宏观产品指导我们分析房屋走势,分析人群的动态。第二方面在层层挖掘层面,这些数据有利于我们进一步沉淀挖掘人、房、客之间的关系,有利于提高机器人的作业效率。

   

6. 房产方面大量的数据都是图片,如户型图,房子样式,如何处理图片?包括图片的存储方面以及从图片中提取信息

李小龙:在图片存储方面,我们这边是基于S3自研了图片存储服务,可以提供包括图片的裁剪,尺寸大小,加水印、去水印等各种图片的功能,同时,我们基于这些比如户型图,采用的机器学习的算法手段,我们自动识别出户型图,它的南北朝向、有几居室,类似于这样的数据的自动提取工作。

   

7. 为什么称这个数据开发管理平台为一站式?

李小龙:因为我们当时在设计这个数据开发管理平台的时候,定位是从数据的收集到数据的存储,再到数据的加工,以及数据的展现、输出的一个全流程平台,我们对整个数据的全生命周期进行了管理,各种数据分析师,或者各种用户,在我们这个数据开发管理平台上可以一站式的实现这种数据的全流程服务,所以我们称它为一站式。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT