BT

您是否属于早期采用者或者创新人士?InfoQ正在努力为您设计更多新功能。了解更多

IBM钟云飞:SPSS的未来是简单、功能丰富、与开源软件充分集成
录制于:

| 受访者 钟云飞 关注 0 他的粉丝 作者 InfoQ 关注 2 他的粉丝 发布于 2017年8月4日 | 智能化运维、Serverless、DevOps......2017年有哪些最新运维技术趋势?CNUTCon即将为你揭秘!
49:55

个人简介 钟云飞,来自于IBM。现在在IBM主要从事大数据的应用和企业应用的推广工作。在大数据分析领域工作了20余年时间,在加入IBM之前,分别在SPSS公司和SAS公司都有过这样的从业经历,近20年来主要关注与数据分析、数据挖掘相关的企业级应用。

   

1. Hello InfoQ的观众朋友们大家好,今天我们来到了IBM,采访IBM SPSS资深大数据分析专家钟云飞老师,首先请钟云飞老师跟InfoQ的观众朋友们打声招呼,顺便介绍一下自己吧。

钟云飞:InfoQ的观众大家好,我叫钟云飞,来自于IBM。现在在IBM主要从事大数据的应用和企业应用的推广工作。 我在大数据分析领域工作了20余年时间,在加入IBM之前,分别在SPSS公司和SAS公司都有过这样的从业经历,近20年来主要关注与数据分析、数据挖掘相关的企业级应用,也非常荣幸能有机会跟InfoQ的朋友们一起讨论,包括数据分析,数据挖掘,数据科学在内的应用的发展现状和对未来的展望。

   

2. 你认为当前大数据,人工智能行业的热点是什么?大数据在哪些领域应用更加广泛?

钟云飞:谈到人工智能、大数据的应用热点,我愿意首先跟大家理清几个概念。一、人工智能是比较广泛的概念,现在社会上比较热的词是人工智能、数据科学,还有机器学习和数据挖掘。数据挖掘前几年就已经很热了,现在提得更多的是机器学习、人工智能和数据科学。机器学习和数据科学,是属于人工智能的一部分,更加关注于从数据中提取有价值的信息。

目前有这样几个技术方面的热点:新技术的产生促进了人工智能、机器学习技术的发展,由于阿尔法狗前段时间分别赢了李世石和中国的世界排名第一的柯洁,深度学习已经被广大朋友们所认知,尽管大家不一定知道深度学习到底是什么,但是名词我相信很多人都听过,这也是机器学习的比较新的发展领域。另外还包括自然语言处理、图像识别和语音识别,因为有了这些技术,未来使得人工智能能够听,能够看,能够理解人类所说的话,人类所表达的意思。

第二个方面的热点,从应用领域来讲,现在数据科学的应用领域越来越广,传统所说的电信、银行、保险等领域以及新的领域,都把大数据应用作为企业未来发展方向的重点。我举两个例子,一是医疗行业一直存在着资源紧缺的局面,真正水平很高的专家比较少,因此怎么把专家的知识积累起来以服务更多的病患,就是医疗行业面临的问题。随着大数据技术的发展,我们有了新的思路,可以把历史上的病例和专家,以一种数据的形式积累起来,并且从大量病例中提取出来为更多的病人服务。IBM在这块做了很多的尝试,也发展了先进的技术。第二个是体育领域,过去我们一直觉得体育是个人能力的体现,但现在即使在体育这种很体现个人能力的领域,技术也变得非常重要。例如,运动员在运动的时候,我们会给他装置传感器以监测其各项生理指标,然后拿过来分析,看其动作的合理性和改进空间,从而提高运动成绩。今年有一支队伍就是依托于大数据技术提供的一定支持获得4月份美国女子自行车追逐赛的世界冠军。当时通过在选手身上装备传感器来收集身体机能等数据从而帮助她们获得更好的成绩改善;再例如IBM在前两年支持中国网球公开赛,也会收集训练过程中的数据来帮助运动员改善成绩,同时现在的足球训练,也会在运动员的训练背心中装传感器来监控他的各项身体指标,包括他在场上的跑动距离等等。所以说数据分析,包括数据科学在各个领域都有着非常广泛的应用,这也会慢慢地变成应用热点。

   

3. 您认为在大数据、人工智能概念非常火爆的当今时代,客户对传统的统计分析与数据挖掘工作的需求发生了哪些不一样的变化?

钟云飞:首先我们刚才提的概念是数据挖掘和机器学习、数据科学,这些词在不同时代有不同的叫法,数据挖掘从2003年到现在,它的热度根据它的查询量是逐渐下降的,而数据科学和机器学习热度,从2003年到现在2017年,十几年的时间内是不断的上升的,现在基本是最热的阶段。

但是就我个人来看,这些词本质的内核有很多相似性,他们的本质都是从历史数据中发现有价值的规律,通过将其应用到未来或应用到我们现实的业务流程中,使得业务流程获得很大的改善和提高。

另外,随着不同行业的发展,他们对数据挖掘、人工智能、机器学习的需求也有些新的变化。总结起来有三个方面:一是数据量的增大。随着数据爆炸的现状,随着传感器和传感技术的增强,我们有越来越多的数据采集进来,甚至每个行为都会被记录下来,这是内部数据。还有企业外部数据,包括外部数据共享或数据市场的丰富,呈现数据爆炸的情况。二是分析对象的扩展,也是当今大数据所面临的情况。过去一提到数据挖掘首先会分析结构化数据,但是现在我们会发现只有结构化数据很难刻画具体事务,我们还需要更多的非结构化数据或自然语言数据,比如说语音数据、图像数据。而这些数据实际上也跟第一个问题相关,这些数据量也特别庞大。三是客户需求的变动。过去在数据挖掘领域就那么几款软件,比如说SPSS软件,比如说SAS软件。现在随着开源技术的兴起,有了R、Python、Hadoop,Spark,于是我们面临这种多层次软件的需求。但是,大数据从本质来讲,最终都是要以解决客户需求为目的,就是怎么样能通过这样的技术来帮助企业改善业务、提升其利润、改善客户体验。

   

4. 目前大数据行业的开源软件,商业软件呈现出怎么样的一种发展和竞争态势?你觉得客户应该怎么样选择?

钟云飞:开源软件发展的很好,就数据分析领域来说开源软件主要有这样几种,一种是R,这也是比较传统的和应用比较久的软件。那么第二块就是Python,近几年Python在数据分析领域,也是受到了广泛的关注和应用,包括这三五年发展起来的Hadoop和Spark都是开源软件和数据分析领域发展较好的部分。

开源软件有非常独特的优势和特点,总结下来有以下几个优点:一、开源软件算法非常丰富、功能非常强大。现在软件分成两类,一类是商业软件,一类是开源软件,真要说算法丰富来讲,没有任何商业软件敢跟开源软件叫板。因为开源软件的特点就是迭代快,有很多的开发者,贡献者会不断的开发新的包、新的功能贡献到社区,贡献到开源软件。二、它的使用非常灵活。开源软件的整个原代码是开放的,这样会比这些商业软件相对来说灵活很多。三、免费,这也是企业比较喜欢的一点。

但是伴随着这些优点之外,开源软件也有不可避免的缺点。一、它的稳定性存在缺陷;二、技术支持问题,在世界上没有任何软件在使用中毫无问题、没有任何bug。那么当碰到问题的时候,开源软件和商业软件不同的解决问题的方式就决定了开源软件会更麻烦;三、开源软件相对来说使用门槛相对更高,并不是每个人都适合使用开源软件。比如在数据分析领域,SPSS已经做得非常易用。但开源软件很多时候需要编码去实现的,这就对知识结构、知识储备有更高要求,开发者除了要懂数据挖掘之外,可能还需要懂编程等等。

所以,开源软件的优点和缺点,实际上就对应着商业软件的缺点和优点。比如说稳定性,和技术支持,商业软件都会更好,但是其缺点就是迭代频率不会像开源软件迅速。但是现在,随着软件的发展,我觉得不管是开源还是商业软件,两者都存在着互相借鉴和融合的趋势,比如SPSS,它会对开源软件有较好的集成和整合,在SPSS里你可以直接调用R的功能与代码,你可以把R代码封装成SPSS的节点,让其他更多人使用。再比如,SPSS可以直接去连Hadoop,可以直接把模型的建立和应用的过程推送回Spark,让它实现分布式计算。

另外,开源软件对商业软件也有借鉴——有些开源软件的项目,就可能会借鉴商业软件使用上的便捷性。因此,开源软件和商业软件是互相借鉴,互相融合的趋势,我在这里不想说商业软件一定比开源软件好,或者开源软件一定比商业软件好,一定是说最适合你们企业情况的才是最好的

那么,企业对开源软件和商业软件到底该怎么选择?商业软件和开源软件的优劣,企业在选择软件的情况下,最主要的还是看企业到底是在做什么,到底是用数据挖掘、数据分析还是数据科学?它们在你的企业中的角色是什么?比如说如果对于相对来说比较传统的企业,业务的重点还是在于发展业务,数据挖掘或者数据分析更多的时候只是作为工具在用,它可能有自己的研发中心,但是它的研发中心并不一定需要那么强的,对数据挖掘本身算法的研究,或者算法的实现方面的探讨上的时候,我们的商业软件比较适合它。因为商业软件把算法、功能已经封装在非常易用的商业软件包里面,这样开发者使用商业软件就可以直接解决企业问题就可以了。如果你们企业本身就是以开发见长,比如BAT或电子商务类企业,其核心的竞争力就在于它开发的网站与功能,而且企业内部有大部分人员是专注于开发的,这种时候,我觉得开源软件,可能会更适合这种企业的发展,因为他们更多时候要求直接开发功能和接嵌入网站,变成整个系统中的一部分。

总结下来,你如果觉得企业核心竞争力在于开发,而且开发能力足够强,开源软件是个很好的选择,如果你的企业侧重点更多在于业务,那么商业软件是不错的选择。另外也不能绝对的划分,我接触的很多企业会将开源软件和商业软件二者结合使用。比如,我接触到的电子商务网站,他们中既会有人专门使用SPSS这样的商业软件,也有人会使用开源软件,他们大致的流程是,先使用商业软件开发出原型,因为商业软件开发比较简单,而且容易上手,同时开发速度也会比较快,业务人员对于你整个流程也会比较容易理解;然后如果验证后各方觉得还不错,那么他们会把这套思想,在开源里头实现;最后将这套思想部署到整个业务性能中去,使其变成业务系统的一部分。最后总结一下,第一,企业选择开源软件还是商业软件,主要归咎于企业的现状;第二,对于软件的选择有三种模式,根据企业的情况,以开源软件或商业软件为主,或者两者结合使用,这是我对开源软件和商业软件使用的看法。

   

5. SPSS发展到今天为止,您认为几个比较重要的发展结点是什么?SPSS是否能够解决当前大数据,人工智能时代,企业级客户的主要的需求和痛点?

钟云飞:说到SPSS发展的主要结点,我认为有以下几个结点。第一,是SPSS软件的开发。1968年,斯坦福大学几个大学生在学校里开发出了这款软件,等于SPSS诞生了。第二个结点是1975年,他们在芝加哥正式成立了SPSS公司,使得SPSS变成公司化的运作方式,因此从这方面来说,大家可以看到SPSS和现在耳熟能详的大型软件企业——比如微软、Oracle,基本上是同时代的产物。第三个节点,我想提到就是1994年——SPSS收购了一家叫ILS的英国公司,这家公司有个非常重要的产品线,当时叫Clementine,这是一款关于数据挖掘的产品线,它实际上是全球最早的一款商业数据挖掘软件,那么后来SPSS收购这家公司并对产品进行了改装和整合,就变成了SPSS的拳头产品,现在叫IBM SPSS Modeler,现在很多的行业,包括电信、银行、保险在内的很多企业都在用这款软件。第四个结点是2009,就是SPSS被IBM收购。因为当时IBM看到了大数据分析、大数据应用发展的热点,所以它就把SPSS收到自己的旗下,并在收购SPSS之前还收购了Cognos,使自己的商业分析、商业智能这条产品线得到了进一步完善。第五个结点是2013年,SPSS推出了产品Analytic Server。我个人觉得它是产品线中具有里程碑意义上的其中一环,它实际上是商业软件和开源软件结合的产物,因为通过Analytic Server,我们就可以直接用SPSS去连Hadoop的数据源,并且把数据处理、建模的过程直接推到Hadoop或Spark里去做。这是商业软件和开源软件紧密结合的发展路线,也是非常重要的时间点。

那么SPSS能不能满足客户对大数据、人工智能、企业级应用的主要需求,就我个人的观点来看,只能说是部分解决。

因为SPSS只是一个工具,或是数据挖掘、数据科学、机器学习技术的平台,企业要解决企业级的问题和痛点,刚刚提到的这三项技术实际上只是引擎。相当于客户最终需要的是汽车,那么SPSS提供的就是汽车发动机的引擎。为了解决企业的问题,实际上还需要其他很多周边的东西。比说数据怎么采集,你可能需要传感器设备来采集数据,或者也可能需要通过爬虫技术从网上爬取数据,但这块并不是SPSS所解决的。所以说 SPSS能够解决企业关于人工智能,关于数据挖掘等业务痛点这类核心问题,但它还需要结合其他技术,让企业的管理水平,企业的管理绩效能有更显著的提升。

   

6. 在您所进接触的这些客户当中,您能否简单的介绍一两个使用SPSS的典型的应用场景和应用案例?

钟云飞:比如电信公司,电信企业在国内实际上是数据挖掘领域的先行者,基本上2001年就开始了,我当时有幸也在其中。电信公司,尤其是移动公司就开始了对数据挖掘的尝试。2001年,在移动经费一期的规划里就有了客户流失和交叉销售这样的一些话题。他们最近比较新的挑战就是4G客户的体验改善,怎么样用数据分析、数据挖掘的方式来做?举个例子,我们为什么感觉到有些地方4G信号好,有些地方4G信号就弱,也许4G信号弱的地方,你可能感受会很差。移动公司所面临的局面是怎么样去改善用户体验。因此,那个时候移动公司就做了关于4G客户体验提升的项目,尤其是上网体验的项目。他们会收集到很多有关客户上网体验的数据,然后找到那些体验差的地方,这些地方不需要客户直接去移动公司投诉,用户在上网的时候,移动公司能更了解接入率、上传速率、下载速率等了解情况,然后移动公司会看这片信号较弱的区域是由哪个基站来覆盖的,以及接下来应该怎么样优化基站。

再举一个其他的例子,欺诈是银行领域凸显的问题,比如信用卡欺诈、信用卡套现等等。银行业的传统技术很难解决这类问题,现在他们可以凭借大数据分析客户的刷卡模式,通过这类数据来看哪些客户可能存在着套现和欺诈的风险。此外,还包括发现内部员工的违规行为也能通过大数据分析得到更好地筛查。在银行的审计里,数据科学技术也得到了非常广泛的应用。

第三个例子是在鞋服领域,去年IBM也做了该领域的项目,就是怎么样帮助鞋服企业更好的完善O2O业务模式的扩展。O2O会建立自己的电子商务网站,形成自己的客户分群、实体店面的选址,数据科学可以对怎么样进行店面选址,怎么样跟竞品的选址进行对应,怎么样对客户分群,怎么样进行积分管理、客户价值管理、客户细分,怎么样进行交叉销售等起到很好的支撑。

   

7. SPSS的使用是否有行业、企业规模,企业数据量方面的限制,还是说SPSS适用于所有的企业?

钟云飞:SPSS对于所有企业来说都是适用的。对于SPSS本身数据量大是挑战,在SPSS发展这么多年里,很多时候在跟数据量做斗争。在SPSS发展的历程中,其对大数据的支持经历了这些过程。SPSS最早收购ILS公司Clementine的时候,它只是单机版的软件;后来1998年做的第一件事就是把它做成了CS架构,比如把Server部署在高性能的服务器上。这时候处理的数据量就比较大了。后来,IBM觉得这样还不够,又推出了一项SQL Pushback技术,把那大量的数据处理过程直接推送回数据库,这样就减少了大量数据在网络间的“搬家”的过程,使得效率得到很大的提升。到了2013年的,IBM推出了Analytic Server,可以把数据放到分布式存储和分布式计算中。我始终觉得,数据量大是SPSS始终面临的挑战。同时在我接触的很多企业用SPSS数据量并不一定大。在统计学上,超过50条数据,就可以叫做数据量最够大了。当然,这只是统计学上的意义,现在已经不会有人觉得50条数据会比较大了。从统计学上来看,获得50条以上的数据,往往就可以针对特定问题得到有意义的结论了,比如SPSS除了刚才我们说的电信、金融保险、电子商务、高校,医疗机构等这些行业,他们在做这种科学研究的时候,甚至做学校的客户题目的时候,也会用到SPSS,那时候涉及到的数据量都不是特别大,包括企业做市场调研的,也会用SPSS做调研结果的分析。抛开数据量大小的问题,对于企业来说找到合适的业务场景,合适的业务模式应用到SPSS。

   

8. 您认为SPSS的使用者,他们应该关注SPSS的哪些发展趋势?

钟云飞:就我个人来讲,对于SPSS发展趋势,使用者关注不了,也很难把握SPSS发展趋势。对于发展趋势,首先要主动的去创造发展趋势,要思考清楚未来5年,10年软件走向会是什么样的;其次,当新技术产生的时候,你应该学会去跟随趋势。SPSS的发展趋势同时兼有这两部分,因为SPSS有自己的长期的产品规划,将来会功能会越来越强大,或者越来越易用,会有越来越多的算法。但是有的时候,这种趋势可能会由于新技术的产生使其发生改变,比如2013年的时候为什么SPSS会推出Analytic Server,正是因为Hadoop的技术的兴起,如果没有Hadoop技术的兴起,可能也就没有Analytic Server这条产品线的存在了。所以,与其你关注SPSS趋势,不如你关注整个数据科学,或者机器学习的发展趋势,因为SPSS一定是根据这条主线去走的,有些方面SPSS处于领先地位,而有些时候,SPSS在一些新技术产生的时候,也会紧跟新技术的方向。

   

9. 请您展望一下SPSS在统计分析,数据挖掘方面的使用前景?

钟云飞:第一,SPSS软件一定会保持自己的特色,简单易用。包括我们刚才提的Hadoop,大家一提到Hadoop可能觉得是很IT的东西,但是你用SPSS和Hadoop去连接,会发现完全是透明的,不需要知道后面Hadoop怎么架构的。这种分布式存储,其后面的IT术语完全不需要了解也可以做。所以,SPSS未来的发展趋势,一定还是在使用简单上去做文章,屏蔽掉后台很多复杂的技术,让使用者以简单的方式就能够处理他们企业的问题,第二,我觉得它功能会越来越丰富,算法会越来越丰富和强大。功能丰富包括数据处理过程、建模过程和模型部署的部分。第三,和开源软件,包括和新技术的集成和融合,一定会有很大的发展。比如现在正在发展的Hadoop和Spark的集成,以及将来还会出现新的开源技术,那么SPSS一定也会跟这些技术进行深度的集成。再比如前几年的流计算技术,在这项技术上IBM也有自己的产品,它是基于内存的流计算让数据一次性跑过内存就可以很快的得出结果,SPSS也能和这样的新技术有集成,比如说SPPS数据挖掘结果,直接和Streams去集成。

我总结下来,SPSS将来发展是简单、功能丰富,并和开源软件的融合集成。其次,我还愿意分享IBM在这块发展的领域,IBM在2017年第二季度 Gartner的数据科学平台魔力象限报告中,无论在发展现状,还是发展愿景上都是排名第一的。SPSS是IBM发展方向之一,数据科学IBM还会有其他的发展,因为现在数据科学一块就是商业软件,一块就是开源软件,那么IBM除了继续发展SPSS之外,还开发了新的数据科学平台,叫Data Science Experience。在这个平台上,你可以用各种各样的开源软件进行开发,而且使用不同的开源软件开发数据科学应用的时候,团队可以协同工作、集成处理,包括他们可以将其用作成果、思想进行分享的平台。

   

10. 现在数据科学家的概念非常火,您认为数据科学家应该具备哪些技能?国内企业拥有数据科学家的情况多吗?

钟云飞:首先数据科学家一定是能够分为两类的,一类数据科学家是偏重理论、偏重方法、偏重算法研究的,他们会致力于怎么样开发出新的算法;第二类是数据科学解决实际问题的一种应用。我们现在所提到,包括企业所关注的一定是后者,就是数据科学在企业应用的领域,我觉得数学科学家应该有这三方面能力,或者有这三方面的知识结构:

第一方面的能力就是对业务的理解和把握,这实际上是前提。因为就数据科学的应用来讲,它主要还是为了解决业务问题,你只有对业务问题了解的越深入,你的数据科学的应用才能够更加切合实际点,其次是对数据科学家的沟通能力有非常高的要求,往往数据科学家不是像我们传统的科学家一样闷在屋里做研究就可以了,他们往往是要与人沟通的,去了解用户实际的业务问题,包括业务过程中有些什么样的问题,哪些问题是可以通过数据科学解决。

第二块能力,就是对数据挖掘、机器学习、统计学的基本了解,但是关于了解的深度,每个人是可以根据自己的情况去做选择的,你需要对每个算法的数学细节,特别算法公式有深入了解。那问题是,如果不是这样你是不是就做不了数据科学家了呢?也不是,但最起码你要掌握它的背后的逻辑,或者说这些数学、这些算法的思想往往能够帮助你解决企业中的问题。

第三个具备的能力是对企业数据的了解,这一定还是跟你所解决问题相关的。比如说常见的数据源,对常见的数据处理方式等这类问题你必须有所了解,对企业来讲,通过数据科学解决企业的问题,必须把三方面进行很好的结合。而且就我的感受来讲,很少有人能够兼具这三方面的能力。在企业里用数据科学,数据挖掘的方式解决业务问题,这往往是团队来做的,团队里有些人侧重于业务,有些人侧重于技术实现,有些人侧重于数据口径的了解,数据科学家在定位自己的时候,也可以找自己的主攻方向。

那么国内的数据科学家多不多?就目前而言,不是国内多不多的问题,而是全球可能都缺少这类人才。因为这块本身是新兴科学的领域,我觉得有点类似三十年河东,三十年河西的感觉,过去大家没觉得统计学有什么好,很多人也不愿意学统计学,现在可能觉得这块是不错的领域,学的人越来越多,但实际上在真正在去解决企业问题的时候,你会发现,光掌握统计学,掌握算法是远远不够的,还需要行业的积累,或者说经验的积累,才真正能够把学的知识也好,算法也好,真正能用来解决企业问题,这块人员永远是稀缺的,尤其是有经验的,能够真正通过这种方法来解决企业问题的人,我觉得一定是稀缺的,所以说我也希望咱们InfoQ的广大观众和听众有兴趣的人可以往方面去转,应该还是很有前途的方向。

InfoQ:好的,钟云飞老师非常详实的给我们介绍了SPSS的发展,以及应用场景,以及他对于统计分析,统计挖掘,数据科学,甚至人工智能,大数据方面的看法以及他的展望,那么今天我们对钟云飞的老师的采访就暂告一段落了,也感谢钟云钟云飞老师接受InfoQ的采访,谢谢您。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT