BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

专访明略数据技术合伙人孟嘉:SCOPA架构升级下的实践与优化
录制于:

| 受访者 孟嘉 关注 0 他的粉丝 作者 InfoQ 关注 7 他的粉丝 发布于 2016年11月23日 | QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!
08:18

个人简介 孟嘉,2008年从北大计算机系硕士毕业,之后在某外企做研发工作,2014年底加入明略数据。目前在明略数据任系统架构师和技术经理。主要负责带领大数据关系挖掘分析平台SCOPA架构组对产品进行架构设计、带领研发组研发SCOPA的底层存储和在线计算部分。

   

1. 大家好,今天我们有幸专访到了明略数据技术合伙人孟嘉老师,跟他畅谈一下明略数据SCOPA的一些核心技术问题。下面先请孟嘉老师跟读者们打个招呼吧。

孟嘉:大家好,非常荣幸有机会参加这次访谈。我是来自明略数据的孟嘉。我2008年从北大计算机系毕业,之后在外企工作了五年的时间,2014年底时加入明略数据,现在任系统架构师和技术经理一职。

   

2. 我们知道孟嘉老师之前有十年的软件开发经验和五年的大数据项目经验,这15年的工作经验对您产生了怎样的影响,包括您对大数据关系挖掘的认知以及如何设计相关的产品架构或者说如何管理一支技术团队?

孟嘉:我觉得我之前参加的这些项目对我的经验积累是非常宝贵的,因为我现在的工作中一个比较重要的项目就是做SCOPA这个平台的系统架构。对于一位架构师而言,他不光知识面要广,而且要深。之前接触的不管是大数据项目,甚至是我在研究生期间去做的分布式的一些项目,其实对我后来的发展都有很深的影响。只有经历过这些实际落地的项目,从中不断的总结才有可能在真正的做系统架构时提前考虑到一些问题。因为如果架构出错,它的代价是非常高的。

作为研发团队的管理者,我觉得要充分发挥团队中每一个成员的积极性,以及让他们有一种活跃的氛围,这样的话他们的产出会非常的高效。我希望我们的团队是一支高效而有活力的团队。

   

3. 我们也知道最近明略推出了SCOPA2.0,SCOPA2.0在一些功能和架构上跟SCOPA相比它有哪些改进和提升呢?

孟嘉:SCOPA2.0做了一次大规模的架构升级,其实是为了SCOPA的平台化战略。

SCOPA从2.0开始往平台化发展,也就是说我们开放了API,这样的话不仅是SCOPA项目团队的成员可以去在上面进行二次研发,甚至我们的合作伙伴也可以进行二次研发。那么这背后的架构改动有以下几点:

首先我们把存储层抽取成了一个独立的数据库。因为您可能了解到SCOPA后面底层的存储其实是一张巨大的知识网络,我们其实是开发了面向知识图谱存储的数据库产品,可以说是一个独立的NoSQL产品,这样的话其实作为二次开发的人员可以独立使用这个数据库进行调试,同时他可以以插件的形式接入到SCOPA的整体平台中。另外我们在2.0中统一了非结构化和结构化数据的描述,这样的话开发人员可以更好的去实现数据的构建过程。其次我们在2.0中加入了轻量级的基于DAG的任务调度系统,这样可以把离线和在线紧密的结合在一起,从而很大程度上提升了SCOPA的工作效率。

   

4. 明略分布式数据挖掘技术它的一些应用场景有哪些呢?

孟嘉:目前明略在关系挖掘这块做的比较深入的是公共安全领域、金融领域和税务领域。尤其是公共安全领域。

   

5. 图数据库的应用能解决具体哪些问题?

孟嘉:整个SCOPA的底层是用分布式图数据库来存储整个的知识网络,我们采用了一种叫做属性图的模型,也就是Property Graph,整个图数据库相比关系型数据库来讲,它的最大优势就是关系的推演和关系的存储。举个例子,在一张简单的社交网络中,如果用关系型数据库存储朋友关系,当您查询两度关系,也就是朋友的朋友时,他需要在这张关系表做一次join,当您查朋友的朋友的朋友,也就是三度关系的时候,它需要做两次join,当您查询的度数多的话可能关系型数据库就无法满足查询需求了。而图数据库不一样,它采取一种邻接表的方式存储,随着查询深度的增加,它的代价是线性的,所以图数据库天生就适合这种关系的推演。

   

6. 那么SCOPA平台是通过哪些算法将一些庞大的数据有效结合起来的?

孟嘉:SCOPA在知识构建的过程中,主要是基于规则的和基于机器学习的整体离线关系构建算法,基于图之上算法的关系构建,还有一些基于小规模图的在线关系构建算法,来实现将庞大的数据组织起来。

   

7. 在结构化数据和非结构化数据这两者的分析处理上,SCOPA所使用的技术有哪些差异呢?

孟嘉:首先我们从2.0开始已经统一了结构化和非结构化的数据描述,但是在抽取结构化和非结构化数据的过程中我们使用的算法确实有所不同。结构化数据基本上还是基于规则和机器学习的一些算法,对于非结构化数据,我们采用了大量的自然语言处理中的一些算法。

   

8. 数据挖掘和分析这项工作在明略的整体的大数据处理生态当中,它所扮演的角色是怎样的呢

孟嘉:整个数据挖掘工作在明略是非常重要的一环,我们也有自己的数据科学家团队,包括在人工智能、深度学习和一些数据挖掘中都有不断的积累,我们也组建了自己的GPU集群,在上面不断的做一些测试,包括把深度学习的最新算法应用到一些项目中,在这方面我认为明略数据在国内走的比较领先。

   

9. 您如何看待国内数据挖掘技术的发展现状?您如何预测将来它会有哪些趋势?

孟嘉:其实大数据的发展为机器学习、人工智能都提供了一个很好的条件。现在的数据不光是数据量大,数据种类、数据维度也非常多,这样的话就使一些之前无法被利用的数据可以被利用到新的数据挖掘的算法中。我认为人工智能,包括现在比较火的深度学习会在更多的领域中有更多的实现,逐步取代人力。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT