BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

黄桦:如何正确使用知识图谱
录制于:

| 受访者 黄桦 关注 1 他的粉丝 作者 InfoQ 关注 9 他的粉丝 发布于 2016年11月22日 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!
18:37

个人简介 黄桦,四年大数据领域从业经验,大数据技术和大数据产品开发的深度实践者。2014年作为早期员工加入明略数据,先后落地实践多个金融、公安等领域的大数据项目,积累了丰富的企业级大数据产品开发和项目落地的经验。目前是明略数据技术合伙人,带领团队负责SCOPA产品的关系规则引擎的研发及相关应用的实践,成功帮助多位企业客户构建了亿级实体、几十亿级关系的知识图谱网络。在加入明略之前,担任Paypal中国风险管理部门(Risk Management)的高级分析师,从事大数据量化分析和支付反欺诈风险模型建模等工作。在PayPal工作之前,在2012年于加拿大Simon Fraser 大学取得计算机硕士学位,2009年于北京邮电大学取得通讯工程本科学位。

全球架构师峰会(International Architect Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

   

1. 各位InfoQ网友大家好!现在我们是在ArchSummit深圳大会的现场,作客专访间的是明略数据技术合伙人黄桦。从最开始的语义网等概念,到现在的知识图谱,您觉得现在知识图谱的概念为什么能够火起来?

黄桦:我对语义网的了解不是特别深,先聊聊对它的认识,语义网是一个宏观的概念,它想把网络上的所有的设备,电脑、手机、智能硬件都能够连起来,并且让他们互相能够认知、识别到对方,当初设计非常复杂,貌似也有个七层协议,跟网络通信协议类似,非常复杂,所以很难落地,它只是一个很大的概念。但是知识图谱不一样,概念比较简单,就是点边属性这样的三元素的图谱,比较可以落地。再加上数据越来越大,我们进入大数据时代,总量比较多,数据类别也比较多,这个时候人们非常自然的想到,有这么多数据以后如果还是孤立的一个个看数据源,产生的价值是线性累加的过程,如果把孤立的数据源串在一起,它能激发的价值就不是线性累加的,可能是指数型加持的效果。这是我觉得大数据为什么能火起来的原因。

   

3. 您所了解的业界现在知识图谱的落地的应用有哪些?

黄桦:落地应用挺多的,我的认识当中最早是在互联网搜索领域,我读书的时候实习,微软亚洲研究院做了一个叫人立方的搜索引擎,刚开始落地的时候他们找的是学术圈发表论文的数据,把作者跟学校之间的关系找到,把作者跟作者之间一起合作论文的关系刻划出来,搜索一个作者能带出来相关领域的合作者。最早的知识图谱应用是这样。慢慢的,谷歌在2013年左右把知识图谱放到他的搜索算法里,增强搜索的性能和准确度,慢慢的国内百度也在用,出了一个叫图谱的产品,也是把知识图谱用到搜索里去提高用户的搜索体验。企业级市场知识图谱用的还是不多,刚刚开始兴起,我们公司算是比较前列的,探索了一些应用场景,特别是在公安和金融。昨天的分享中我也提到了,公安特别想知道真实的世界网络是什么样子的,因为他要抓嫌犯,很多时候犯罪分子不是孤立的个体或事件,是团伙性,而且团伙性的趋势越来越重,所以一定是需要关系网,才能更好的辅助他去研判或者追捕嫌犯。

   

4. 那金融领域呢?

黄桦:金融领域更加关注一些风险的问题,像银行最大的问题就是风险问题,如果把风险控制好了是可以赚很多钱的,他更加希望在交易和帐户层面做一些风险控制。如果把交易的数据做一个比较好的Study的话,可以把帐户之间的关系连接起来,交易是一种,帐户之间的属性也能建立一些账户之间的关系。举个简单的例子,我开了两个帐户,都是我开的,用的不同的身份证,但是我填的时候一些信息相似度非常高,都填的比如说某街某道,那这两个账户其实是同一个人开的。

   

5. SCOPA在知识图谱应用是结合什么数据库进行的?

黄桦:我们用的是大数据架构的图数据库,用的是一个叫Titan的开源组件。

   

6. 为什么会选择这种数据库?

黄桦:这是一个很好的问题,我们做企业级市场的,在技术选型包括用一些什么样的技术方面还是比较慎重的,不会贸然用一个新技术,之所以用Titan是经过了比较全面的技术选型的。选型有几点,第一点是看数据库和大数据平台的整合度高不高,是不是容易对接,因为现在很多大公司做大数据项目,或多或少已经有了大数据平台,如果你跟他说部署知识图谱产品要增加一个xxx组件,跟他的大数据平台不是完全耦合的话,对方是很难buy in的,会说已经做了投资了,已经有这个平台了,为什么不能基于这个平台来做,所以第一点跟大数据平台的整合度、成熟度、对接度高不高,这是很关键的一点。第二点,这个产品的性能问题,因为数据量大的情况下性能是很关键的,我们对Titan做过一些压测,还不错。三是可扩展性,基于大数据平台的数据库可扩展性都不差。对于我们这种想要把知识图谱产品商业化的公司,我们还关心License的问题,有些开源工具的license对商业化是不友好的,Titan是apache license,所以我们后来选了它。

   

7. 在应用知识图谱的过程中,您是从零开始研究的,还是以前就具有相关项目经验?

黄桦:我们公司是2014年初成立的,开始的时候并没有想要直接用知识图谱做一些事情,也是做比较传统的大数据项目,那个时候大家对大数据的理解还是搭平台、导数据、跑报表这些比较普遍的需求,慢慢数据量多了,平台搭起来以后,客户希望创造更大的业务价值,解决更大的业务问题,这时候传统的方式就玩不转了,我们后来做了一些调研,看其它同行和国外的公司是怎么解决这些问题的,发现他们或多或少都是通过关联数据这样的路子产生更大的knowledge以后才能更好的解决问题。我们2015年的时候尝试这样一个方向,正好当时有公安客户,他跟我们交流过程当中,发现关系网对他来说是个非常强的需求,基于他的场景慢慢在2015年开发,2016年已经有一套比较成熟的产品。

   

8. 对于一个公司如果初次开始使用知识图谱,如何降低成本?

黄桦:降低成本这块,我的建议是尽量采用开源的技术,做产品的时候先想清楚要解决什么样的问题,很多技术人员很多时候为了验证我懂这个技术、我很强就做这个事情,但我建议在做图谱产品的时候最好还是发现问题,不用太大、太多,先找到一个问题,根据领域内的知识,抽象出要构建图谱需要哪些实体,要构建哪些实体关系,实体有哪些属性和事件,这些东西identify出来以后基于开源的工具再去把这个系统搭起来。

   

10. 也就是说降低成本还是要考虑行业的业务属性?

黄桦:对。比如你在工商行业,你抽象出来的知识图谱可能更多是关于企业、法人、产品、行业这样一些实体的图,但是在公安就不一样了,他可能关心的是人,组织、机构这样一些数据。

   

11. 把原始数据转为知识图谱可用数据,明略在实践中遇到最大的困难是什么,如何解决的?

黄桦:您的问题更多的是数据治理的过程,就是数据怎么样从源头到我们的图库里,我们碰到的最大问题是怎么样对非结构化数据的处理,包括视频、图片,这是挺大的一个问题。我们现在对文本做的比较好,有一套比较成熟的IOP的工具,它可以自动化的处理一些文本。但是我们对视频、图像这块的处理做的并不太好,这块也在摸索,我觉得不大可能公司会花很多力量在这块做很深的事情,可能会采用业内其它同行的玩法或者工具。但是视频、图片对公安来说是非常重要的一个数据源,光有文本的话不够,未来我们会往视频、图片这块的整合、识别做一些努力。

   

12. 学术界对视频、图像识别处理做的比较超前,你们跟学术界有没有这方面的合作?

黄桦:有,我们公司的CTO冯是聪博士是北大PhD毕业的,他在学术界人脉挺广的,跟很多高校,包括北大、清华、上交也有些合作。

   

13. 据说您们的应用规模已经是在亿级实体与几十亿关系了,在这样的应用规模下,准确度和实时性能如何?效果如何?

黄桦:效果还不错。你刚刚提到的亿级实体、几十亿关系,这样的数据规模是我们在现实项目当中有碰到过的,公安的一些场景,公安数据量还是非常大的,比如对于省级的一个公安部门,他有全省的人员信息,国内稍微一个大的省人口都接近上亿,还有一些外来的人员,这些人产生的轨迹类事件,出行、入住等等,是非常庞大的。上亿的人和上亿的事件构建出图之后确实有这么大的规模,我们的查询性能是可以满足干警平常研判所需的,从一个实体人扩展他的一些关系都是可以在两三秒左右得到结果,是非常好的体验。

   

14. 关系链如果是用模型算法的话是不是有点像六度空间模型?

黄桦:对。六度空间模型更强调任何两个人之间通过不超过六个中间人都能认识到对方。公安业务需求比较多样,有一些交互式的需求,研判一个case的时候需要非常快的调出这个case相关人的信息,人员属性、关系人,这需要最好在秒级得到。还有一些是偏挖掘的、偏业务模型的,这种更多的是用一些图挖掘算法再配一些业务知识做Offline的任务。Offline的可能对时效性要求不太高,但是我们现在可以满足T+1的daily的跑批任务。

   

15. 明略的产品主要应用在公安和金融领域,他们对安全性的要求应该比较高,在安全性方面你们做了哪些事情呢?

黄桦:我们最开始做公安的时候意识到安全确实是很大的问题,我们采取的方案从两方面入手:一个是从平台本身,把数据安全性做到极致,在数据层面做到行列级别的授权,所有登录平台的用户访问数据的权限做到行列级别;二是对应用权限做的比较好,产品每个模块谁可以访问、做什么操作,都是可配置的。比如市局的干警登录省厅的系统,只能看到市里相关人员的属性,不太可能看到别的市的相关人员的信息,他要看的话需要申请。

   

16. 像户籍或公安查身份证信息,不是全国的网络都可以查的吗?

黄桦:这些可以查,普遍的常用的可以查,但对于一些其它的敏感的可能有权限问题。

   

17. 大数据技术这两年跟早年云计算一样谈的比较多,但发展方向在我看来没有那么明晰,具体的业务领域上有些case可以拿出来讲,但是不像云计算里比如SDN技术就是一个趋势,大数据里没有这个,在您看来以后大数据领域或者明略的发展方向或趋势是往哪里走?

黄桦:趋势方面还是按照数据关联这个思路往下做。我们更想把基于知识图谱、关联分析这套理念用于更多的应用场景,因为我们现在在公安和金融做的比较多,但是我们也在调研,也在做思考,其它行业通过数据关联做事情也能产生更大的价值,解决以前不好解决的问题。找更多应用场景是未来一个大方向。在技术层,把我们的技术架构做的更细、更深,性能做到更好。我们这套数据量可能上亿,几十亿,还不错的量,但是有更大的数据量在等着我们,我们跟其他警种聊的时候,比如网安,他们收集到的数据量非常大,在技术方面怎么handle越来越大的数据量,在数据量更大的情况下保证我们的性能还是秒级的,关联计算、所有查询、交互都是很好的体验,这是一个非常大的挑战。

InfoQ:谢谢您。我们今天的采访就到这里。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT