BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

杨威:明略大数据运作模式
录制于:

| 受访者 杨威 关注 0 他的粉丝 作者 杨赛 关注 3 他的粉丝 发布于 2015年11月16日 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。
13:41

个人简介 杨威,明略数据产品经理,2013年开始负责大数据项目落地与大数据产品研发工作,同时也是海量数据存储与计算、大数据平台建设、大数据技术应用方面的实践者,在大数据平台建设规划和大数据项目实施落地方面有着丰富的实践经验。杨威在2008年毕业于北京大学计算机系; 2008-2010年在酷我音乐从事高性能后台服务研发工作;2010年加入秒针系统后,参与了广告监测平台、广告投放平台、广告交易平台以及大数据平台的架构设计与研发工作;2013年至今先后主导了某大型电商的流量监测系统、大数据平台和Hadoop数据仓库的建设,某金融企业的大数据分析平台建设,以及电信、公安等多个领域的大数据平台的规划工作。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

   

1. 大家好,我现在在QCon上海大会的现场,今天十分高兴邀请到明略数据的杨威同学来接受我们的采访,按照惯例请您先做个自我介绍吧?

杨威:我是明略数据的大数据平台产品经理,叫杨威。我毕业之后混过很多行业,在互联网公司也呆过,在2B的SaaS服务公司也呆过,目前是到了明略数据从事大数据方向的工作。我个人毕业之后,一直跟技术研发比较相关,从在互联网公司做高性能的后台服务,到广告监测公司的广告监测平台,就是高性能成压的投放服务等等,在前一家公司积累了挺多的Hadoop相关的经验,因为我们那时候是做广告监测的,每天大概接受几百亿广告流量的数据,对数据要进行统计分析,当时就已经开始使用了,在Hadoop还不到1.0的时候我们就已经开始使用Hadoop进行业务的研发。后来我们觉得这样的技术,不应该只在广告监测公司里面去做,而是应该把它贡献出来给更多的企业和机构提供这种大数据的服务,所以我们就成立了明略供数据这家公司,明略数据是为了给企业和政府提供大数据解决方案。我在明略数据里产品,技术,项目都会参与一些部分,因为做一个新的Startup公司没有分的那么清楚,最早的时候,我也服务过一些项目,像银联的客户,像国美的客户等等,他们的项目我也参与,包括整个技术平台架构的设计,技术点的解决,目前主要的身份是大数据平台的产品经理。

   

2. 虽然title是产品经理,但其实你们这个产品和平时我们想象的那种产品经理还是不太一样的,那能简单介绍一下明略这个平台,因为你们是On-Premise的模式去客户那里安装,现在整个运作的模式是什么样的,可以介绍一下吗?

杨威:一般是这样的,我们其实提供的是产品加服务的方式给客户的,所以我们通常跟客户的合作都是,第一我们提供一个基础平台的产品,包含了Hadoop平台,BI引擎,包含数据挖掘平台等等,客户通常会自己采购服务器,我们会给个推荐的配置,根据它的项目的需求,业务的需求等等,给一个推荐的服务器的配置和数目,他会去购买相应的服务器,他可以自由选择不同的厂商,比如说联想,或者是浪潮,或者IBM等等,那么他们买服务器之后,服务器厂商会负责一些商家的工作,然后明略是从系统安装开始接入,我们负责系统安装,负责平台的搭建,网络的建设等等,都可以参与,然后是在上层的数据的接入,上层业务的建设等等,这是我们整个大概一个过程。

   

3. 那你们产品研发和登门部署应该是不同的团队?

杨威:是的,我们产品研发是有独立的产品团队,然后我们还有项目团队。项目团队就是负责刚才说的去客户现场进行具体实施的,去部署平台,进行上层业务的一些开发。另外我们还有个团队是解决方案的团队,解决方案的团队就是将底层产品的技术手段和某一些行业的具体的业务相结合,产生的一个具体的解决方案。比如说我们在金融领域,可能会针对金融的一些,比如风控方面,做了一些金融风控方面的解决方案;比如说公安领域,我们会对情报分析,防控分析等等这些做相关的解决方案。

   

4. 就相当于产品这一块做最通用的部分,但是具体实施肯定是少不了解决方案的那部分?

杨威:对的,解决方案更贴近客户的业务,比如我们从税务行业来说,税务的解决方案部门他们会去了解税务的整个数据的处理的流程,然后他们要做的业务里数据应该经过哪些步的处理,要符合他们税务内部的一些数据的规范,流程的规范等等。产品部门提供了很多技术手段,提供了工作流的引擎,提供了EPR工具,那么这些工具能够支撑前面所说的税务这个行业他们内部的数据处理的流程,数据的规范等等。

   

5. 一般也不会说有客户过来说,我要拿你们底层的Hadoop平台、一些引擎过来,然后上面的业务逻辑我自己开发?

杨威:也不是没有这样的客户,有一些客户他确实能力比较强,他会这样做,而且我们对技术这方面并没有那么多的限制,客户愿意自己学习,自己开发是非常好的一种合作方式,我们更希望去帮助客户发现业务的价值,数据的价值这方面,所以我们一般在整个的合作的过程中都会对客户做技术方面的培训,教会他怎么用这个平台,怎么开发这个平台,只要是客户愿意去学都是没有问题的。

   

6. 那接下来能不能介绍一下你们今年或者是之前一个季度有什么值得分享的事情?

杨威:这里大概有两个事情可以分享,一个就是Hadoop技术相关的事情,一个是我们公司跟客户比较好的几个合作,或者给客户带来价值方面的事情。技术方面,我们这次是跟一家网络安监部门有一个深度的合作,他们有几千亿甚至上万亿的网络通讯数据,这个数据他们现在想要在秒级别做一个查询,然后我们是给他们解决这样的一个问题,能够在现在是大概五千亿规模的数据上面,我们只用了不到十台机器的集群实现了秒级别的数据查询,这是非常先进的一套技术方案,它的底层服务器,其实用的都是非常普通的服务器,我们用的就是常见的戴尔服务器,或者浪潮服务器都可以,一台服务器可能只有十几颗CPU,64G内存,加上十几块的SATA磁盘,上面部署了我们的大数据平台产品,我们平台产品是完全基于Apache Hadoop社区版做出来的,但是我们集成了MPP引擎Impala,但是Impala本身是没办法支持这样一个数据量,这样一个快速查询的,然后我们在这个基础上又做了深度的开发,支持了Impala的聚簇索引和局部索引等等一些特性,使得五千亿规模上的数据查询能够在秒级别就得到返回,而且它的并发性是非常好的,他们这种网监部门通常会有很多业务员去查询数据,有多个并发进来的时候,它依然能够提供非常好的性能反馈,这是技术上面一个点。还有另一个方面的点,就是我们跟银行做了员工帐户的风险监控。银行员工的经济来往其实是非常关键的信息,很多的时候比如说有些信贷员会跟自己的贷款人有一些经济上的来往,甚至有很多人,他们贷款的资金会从他的帐户转一次等等,有很多这种违规的操作,或者不正常的操作行为,我们给客户做了这样一套员工账户的风险监控系统,帮助银行发现了很多这种可疑的操作信息,得到了银行的法物部门和业务部门非常好的评价。

   

7. 那么还是很灵活的,那像是后续的系统运维软件升级这块是怎么做的?

杨威:系统运维有两种方式,一种是像我刚才提到,有些企业有自己的IT团队,他已经能够自己负责运维这些平台了之后,我们在最终交付的时候,会把这个平台完整的交付给客户,会给他做相关的运维方面的培训,之后这种运维工作都可以由他自己去进行。升级的话,因为大部分客户的部署形式都是在内网部署,所以升级我们会到本地去帮助他们做平台的升级。然后还有一种合作方式,就是有些客户,像有些政府单位,他们自己并没有那么多IT人员,他通常都需要有一个供应商,有on premise现场的人去帮他做持续的维护,这也是我们在一些合作单位的合作方式。

   

8. 网监部门那个项目,它是已经存到你们那里的数据,然后进行查询,还是说有直接接入数据输入呢?

杨威:目前是没有,网监部门他们有自己的网络,他们的集群部署在他们内有的网络里面。他们的数据是通过一些线下的方式,从不同的网络运营商那边拿到的,它并不是一个实时的数据接入过程。因为本身来说,数据量是非常大的一个工程,实时接入可能带来的成本消耗更高,另外就是IT系统对接也是非常麻烦的一件事情,所以目前他们是以一种离线数据的方式来进行查询。

   

9. 这可能是以后可以改进的地方,大数据要普及还是有很大的空间的

杨威:是的,这个确实会有,这也是看具体业务的需求了,如果说这个部门他们有这方面的非常实时的数据查询的需求了,确实是可以做到这一点,目前技术上,我觉得风险倒没有那么大,更多的是成本上的考虑,另一个之是他们自己业务是不是愿意去做这件事情。

   

10. 那最后您还有什么想跟我们读者分享的吗?比如说目前思考的一些东西,或者看的一些东西?

杨威:这个点我可以从我们公司的服务的理念来说,明略是一家为企业、政府提供大数据解决方案的,我们现在主要focus在关系挖掘这方面,比如刚才提到的员工帐户监控也是一种关系的挖掘,包括在公安领域,我们会做很多帮助公安进行犯罪分析的关系的挖掘等等,所以我们其实通常来说,提供的服务包含了两方面,一个是技术,另一个是人,我们提供了非常优秀的数据科学家的服务,我们刚前面提到了两个我们做的事情,一个是五千亿级别上的秒级返回的高性能的事情,另一个是我们给银行提供员工帐户风险监控的事情,其实对我们来说更有价值的是后面这件事情。前面技术的问题,我相信无论是我们公司也好,包括社区也好,一定会有不断的发展,技术问题都可以被解决的,但是这些技术如何跟企业的数据所结合,产生新的价值,这是我们需要做的一件更重要的事情,我们更想要做的是解决后面这个事情。所以明略提供的就是我们非常先进的技术,加上非常优秀的人,我们有数据科学家的团队,这些人他们比如说在金融领域,有一定的从业经验,又有丰富的计算机的机器学习、数据挖掘方面领域的知识,所以他能够结合用户的数据帮他发现数据里面更深层的价值。

Infoq:十分感谢杨威今天接受我们的采访。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT