BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

明略技术合伙人任鑫琦:关系挖掘激发深层数据价值
录制于:

| 受访者 任鑫琦 关注 0 他的粉丝 作者 InfoQ 关注 7 他的粉丝 发布于 2016年4月1日 | QCon北京2018全面起航:开启与Netflix、微软、ThoughtWorks等公司的技术创新之路!
20:19

个人简介 任鑫琦,明略数据技术合伙人及SCOPA产品经理,同时也是大数据架构、分布式计算、数据交互可视化领域的专家,主要从事大数据系统高效落地、优化架构以及便捷应用方面的工作。任鑫琦于2009年毕业于京大学计算机科学与技术系,2009年至2012年在SLB从事核心软件开发与架构设计工作;2012年加入秒针系统,负责大数据集群运维和系统架构工作,在两年的时间中完成了公司计算架构的转变,集群规模达到500台,总数据量超过3PB;2013年加入明略,先后负责集群管理和日志分析两款产品的研发工作,曾落地实践多个金融、公安领域项目。

   

1. 各位网友大家下午好,我们现在是在明略数据北京办公室内,今天我们邀请了明略技术合伙人及SCOPA产品经理任鑫琦先生,来和我们一起聊一聊关于大数据关联挖掘的相关话题。任先生您好!首先想请您做一下自我介绍,包括之前的一些工作经历,以及目前所负责的工作。

任鑫琦:各位朋友大家好,很高兴今天能跟大家分享一下我们的经验,我叫任鑫琦,毕业于北京大学计算机科学与技术系,先后在百度和斯伦贝谢担任过算法相关的研发工作,之后在2011年底正式加入秒针系统,负责大数据计算和大数据平台的相关工作,然后在2014年初正式加入明略数据,先后主导研发了几款大数据产品,目前担任明略数据战略性产品SCOPA的产品经理。

   

2. 能否谈一谈明略数据技术合伙人的概念?技术合伙人在公司中所承担的角色又是什么?

任鑫琦:明略数据是一家崇尚技术,同时以技术为核心竞争力的大数据服务公司,所以技术人才、极客在我们看来是公司最宝贵的财富,因此技术合伙人制度也是希望我们能够将真正有技术,热衷于技术创新的人团结在一起,把自己当作公司的主人,让自己的技术力量应用到行业以及公司的发展中去。

技术合伙人其实是以技术能力作为合伙的资本或者价值的一种制度,技术合伙人在公司内有很多权利,同时也有很多义务,技术合伙人既能够决定公司的发展方向,也能参与公司的深度策略、战略的讨论,为公司的一些决策进行谏言和投票。同时身为技术合伙人,也应该处处将自己对技术的理解,对技术的热衷,更多地与公司的发展与业务的发展结合起来,并且深入考虑如何帮助公司创造更多的价值,这就是技术合伙人的责任,而技术合伙人制度也相当于公司对技术人的一种最高奖励。

   

3. 明略数据曾经在很多公开场合提到过大数据科学家以及大数据科学家团队,那么能否谈一谈您认为什么是大数据科学家,什么样的人才能称得上是大数据科学家,而什么样的技术团队才能称得上是大数据科学家团队?

任鑫琦:现在大数据这个话题很热,而在我眼中的大数据科学家至少应该具备三方面的能力。首先是有比较强或者比较扎实的计算机基础,这包括计算机的算法、以及数据挖掘的基础;其次应该有比较强的数学和统计能力,比如对数学指标和数学方法的敏感度;第三是一定要具备特定领域或者是业务的知识,这三者缺一不可。然后还需要能够将这三方面结合起来,利用数学建模或者数据分析的方法,将业务的模型、痛点、以及相关的数据更好地进行分析和组织,再经由计算机程序呈现出来。

明略的大数据科学家团队实际上是汇集了一群有这些能力的技术人,而在其他企业中往往可能有一两个这样人才就已经很难得了,因为这相当于横跨了三个行业,但这样却容易陷入“一个大牛带着一些相对普通的人去做一个事情”的模式中;而对于大牛来说,他能力的积累和提升整体会比较慢。相比较而言,明略的思路则是将有这些有能力的大牛汇集到一起,然后能够在同行业或跨行业的工作中摩擦出火花,更好地推动大数据科学分析工作和发挥大数据行业的优势。这就是一个大数据科学家团队的优势所在。

   

4. 去年您曾经在接受InfoQ采访的时候提到过明略最新推出的一款数据关系挖掘产品SCOPA,能否请你介绍一下SCOPA的含义是什么?另外数据关联挖掘的真正意义是什么?明略为什么要开发这款产品?

任鑫琦:SCOPA的意思是scope all。明略希望这款产品帮助企业和客户利用所有能利用到的数据,进行智能的打通和关联分析,最后将数据价值呈现给用户。

至于明略研发这款产品的原因,其实是源于大数据行业的发展趋势。最近AlphaGo在围棋对战中赢了李世石的新闻炒得很热,其实这就是人工智能发展的一个缩影。任何技术的发展都会有一定的阶段性,过了这个阶段就会产生新的突破,而大数据同样也是如此。当硬件水平、分布式计算这些相关的技术出现了革命性的成果之后,我们就有能力让所有的数据都能更好地被利用起来,而这在前一个阶段其实是不敢想象的事情。

大数据的发展基本上经历了存储、查询、计算、统计,以及大数据之上的算法、挖掘、人工智能等技术阶段,但真正的问题还是数据本身。大数据在应用上所需要解决的,是各行业中的业务人员怎么样才能够更好地去利用大量数据的真正价值,在这个过程中最为关键一点,就是数据的关联挖掘,或者更准确的说是数据的关系挖掘。

数据孤岛和零散数据的问题是目前大数据所面临的重要问题,当数据和数据来源越来越多的时候,不同数据之间的互相打通其实就成了最大的问题。而明略数据正是瞄准了这个问题,想要帮助客户从数据中挖掘出更大的价值,将数据连接起来,让数据的价值呈指数级增长。

   

5. SCOPA和明略其他的大数据产品是什么关系?这些产品共同形成了一种怎样的体系?

任鑫琦:明略数据目前有四款大数据产品,大数据的基础是MDP数据平台,叫做Mininglamp Data Platform,它融合了现在主流的开源分布式计算框架,以及围绕Hadoop周边的相应组件,可以为大数据的存储和分析提供一个安全、高可用的平台。

在这之上明略有一款叫Discovery的大数据BI分析软件,它能够实现百亿量级的数据记录,实时地进行BI统计,相当于大数据统计分析的一个应用场景。

还有一款产品是DataInsight,它是用来实现大数据挖掘、建模、数据特征计算的一款产品,它能让一般的业务人员,只需要具备最初级的数据挖掘概念,就可以实现可视化的数据建模,或进行数据模型训练,挖掘自己想挖掘的数据价值。

SCOPA构建在MDP平台之上,结合了明略数据领域知识,进行领域模型的转换,并且将转换后的领域模型的对象数据进行关联,也就是将所有的数据换成了一种业务人员能够轻松理解的数据形式,并且将这些数据的联系挖掘出来,再把这些数据都连在一起,最后交给上层的业务人员用以展示或分析。

   

6. SCOPA现在都有那些比较常见的业务应用场景?

任鑫琦:SCOPA目前广泛地应用于公安部门、税务部门以及金融机构等领域。公安领域的应用场景是比较常见的,比如在公安部门的情报系统内可以进行重点人的管控,以及重点人的数据模型分析,包括犯罪团伙的数据挖掘,以及高危团伙的数据分析,或者是事后根据一些线索进行的推演分析工作。

SCOPA还有一个比较强大的数据协作系统,同样也可以帮助公安部门进行跨部门的情报综合分析,或者多警种人员之间的智能综合应用,将,它可以让各部门基于自身现有的情报分别进行数据分析,然后再将这些分析结果融合在一起呈现出来,使不同部门对数据处理的结果很好地关联在一起。

   

7. 不同行业的数据有不同的特点,比如公安部门和金融机构所掌握的数据特点肯定是不一样的。那么SCOPA是怎样处理不同数据的呢?

任鑫琦:不同行业、不同领域带来的实质性的结果,其实就是不同形式或者不同来源的数据,明略也会依靠不同的技术来处理不同的数据,比如在处理结构化和非结构化数据时,会用到不同的组件。但是明略的目标是让这些不同形式的数据在处理之后所形成的信息是一致的,它也被称为多规弹性模型。

举例来说,在固定领域内,用户所关注的对象或是元素是一样的。公安部门所关注的就是人、案件、车辆、电话、住所或者一些可疑的物品等等,简单来说就是人、地、事、物、组织这五类信息。而金融机构关注的可能就是卡、交易、流水、帐单、人员。而税务部门关注的则是企业、增值税、流转、营收报告等等。每个领域都有各自关注的子类信息,因此SCOPA会在每个领域内建立该领域内能够应用的统一视图,然而这样的视图其应用范围毕竟是有限的,所以接下来还要把所有与此相关的数据,都转化成该领域内的一种弹性实体模型,之后再将这些构成模型的数据进行关系计算,将这些数据对象组织起来,最后形成该领域内的数据对象关系网,以此作为所有分析工作的基础。

   

8. 从SCOPA的用户来看,他们在数据关系挖掘方面的痛点都在于哪些方面?

任鑫琦:第一个痛点是这些数据都是计算机系统产生的,所以这些数据往往来自于不同的业务系统或是部门,而这些不同格式、不同形式数据的汇总,以及这些不同形式数据的转换、打通、融合其实都是有很大难度的。

第二个问题是数据量太大的问题。现在很难有一个企业能够把自己所有数据的逻辑关系都分析整理得清清楚楚,因此当这些数据快速的汇总到一起之后该如何去使用,就成了一个大问题,而这种数据模型的建立也是非常困难的。大数据技术人员如何将这些数据转化成业务人员所能理解的信息,然后按照业务人员的逻辑去帮助他们进行数据分析,也成为了一大挑战,因为业务人员不可能每一个具体的问题都去要求技术人员做相应的分析。

第三个问题在于数据分析结果的呈现形式。随着数据量的增加,企业所得到的数据分析结果并不只限于统计报表这类的数据,比如还有平均值数据、累加排重后的数据,或者是基于维度钻取的数据等等,更多的是在数据层面上进行真实的、个体的分析以及360度的展现。因此对于企业来说,是否能够通过一种更好的形式来展现这些数据,以一种更直观的方式来反映出数据中所包含的信息和价值,这仍然是企业用户在大数据时代需要解决的一个重要问题。

而要想真正解决这些问题,则需要从技术和业务两方面入手。简单来说,就是需要有更强的数据分析、展现、处理、融合的技术,以便更加高效的将这些多元、异构、跨部门的数据进行快速处理,并展现出来。在业务方面,则一定要深入的理解企业的业务核心,理解最终用户在使用这些数据时的业务习惯和模式,只有这样分析出来的数据,才是最终用户真正想要的数据。

   

9. 目前数据关系挖掘在哪些行业当中的应用较为集中呢?原因是什么?

任鑫琦:比较集中在公安部门,同时公安部门相较而言也更加乐于实践,这与公安部门的业务特点也有比较大的关系。

另外在税务方面的税源分析、反欺诈分析,金融行业的骗保骗贷分析、反洗钱的案件分析,以及企业内审等等,都对关联数据分析以及关系数据挖掘有比较大的需求。

   

10. 您认为数据关系挖掘在目前的行业应用当中还有那些问题?需要如何解决?

任鑫琦:现在数据关系挖掘面临的最大问题仍然是数据安全问题,这是因为本来很多数据就是非常敏感的,其中包括一些涉密数据,而当数据关联性越来越高时,它们暴露的危险同时也就越大。

因此,企业在数据关系挖掘真正落地实践时,应同时辅以强有力的安全保障,这其中包括基础的平台安全、数据安全,以及更上层的数据权限管理、安全审计等等,保证这些关联数据是被有权限、合法地被使用和查找。也就是说,虽然目前通过技术手段得到的数据分析能力已经很强了,但是企业也要限制其能力,不能任其过度使用。

另外,如何能更快、更方便地接入更多的数据,同时处理更多的数据也是一个重要问题。而在数据分析结果的呈现上,以及如何让技术人员与业务人员在对待数据的思路上的统一同样也是在进行数据关联时需要考虑的问题,也就是如何让最终用户很轻易地就可以看懂数据的价值。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT