BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

象SaaS一样用亚马逊Kinesis Analytics做大数据分析

| 作者 Elton Stoneman 关注 2 他的粉丝 ,译者 足下 关注 1 他的粉丝 发布于 2016年9月27日. 估计阅读时间: 5 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

亚马逊最近发布了一项新AWS服务,把大数据流带入到了类似SaaS的世界里,你向输入流执行一个SQL查询就可以获得输出数据了,不必再花时间写代码或者搭建底层基础设施。

对于那些在存储和计算方面非常看重工程上的快速部署和无限扩展的公司,云就是他们的最终归宿。基于Hadoop提供大数据PaaS已经发布很久了,Azure提供的是HDInsight,AWS提供的是Amazon Elastic MapReduce,但现在更加重磅的实时流处理的产品终于出场了。在Azure云上做事件流处理主要用的是一种非常简单、类似SaaS的方法,现在AWS终于也提供了类似产品。

Amazon Kinesis Analytics现在已经发布了,是微软在2015年发布Azure Stream Analytics的直接竞争产品。两种服务都是用相同方法实现流分析功能的:挂接到数据源,再指定目的端,然后不断地运行查询命令来生成输出结果。分析就是通过查询命令做的,两个产品都用SQL(或非常类似SQL的语言),这就非常容易实现具体的分析了。

在云这个行业有个非常有趣的趋势:平台提供商都在努力把自身的经验和优势应用到云上分析中,努力通过抽象让最终用户非常容易使用自己的产品。现在的AWS Kinesis产品就是亚马逊用来为AWS用户们提供细粒度指标的。在项目启动时担任数据服务部总经理的Ryan Waite说:“这让我们测量服务的处理能力上了新台阶,可以实时发出预警了”。它成功地将重心从“你可以在我们这里做这件事”转变成了“我们可以帮你作这件事”。AWS首席宣传官Jeff Barr在他的宣传Amazon Kinesis Analytics的博客中主要强调了容易使用这个方面:

你可以关注处理数据并从中提取业务价值,再也不必浪费时间部署基础设施了。不超过5分钟,只需要写一点点复杂度绝对不超过SQL查询的东西,你就可以构建起一套强大、端到端的流处理管道了。

Kinesis Analytics使用的是管道模型,分析程序连上数据源,不断地运行某个查询命令,再把结果输出到某个目标端。源可以是Kinesis Stream或者Kinesis Firehose,这样你就可以把数据从很多个事件生产者那里汇集起来,交给某个查询。SQL查询可以简单到查看有多少生产者在发送数据的SELECT DISTINCT操作,也可以复杂到做类似滑动窗口的分析。目标端也可以是Kinesis Stream或Firehose,这样你就可以把累积数据存入一个关系型数据库,或者把原始数据存入Hadoop。

要达到与IaaS甚至PaaS相同的效果,就需要有类似Kafka的分布式输入队列,有类似Apache StormSpark Streaming的流处理引擎,以及像Elasticsearch一样的分布式目标端。这些都是需要大量管理工作的分布式集群,而分析则是你要自己写代码、测试和部署的定制化解决方案部分。Kinesis Analytics内部是SQLStream,所以AWS是在用ANSI标准SQL提供一个可管理的流分析解决方案。

Azure也是类似的,与AWS对应的流分析服务最近发布了一个PowerBI(微软的数据可视化工具)的输出连接器。Azure Stream Analytics研发部经理Ryan CrawCour把这种端到端的分析解决方案与用户自己定制的方案作了一个对比:

在以前如果你想构建一套系统,对自己的数据按自身需求进行分析并且将结果展示出来,首先要做数据清洗,再保存到某个数据库中,然后再自己写好程序去不断地查询分析数据,最终再展示到自己写的展示界面上。

不管数据中心还是云,现在在大数据开发领域最受关注的就是实时分析和事件流了。今年Spark 2.0的发布为流式数据源增加了DataFrame支持。Apache NiFi(一个支持流的大数据处理和路由工具)已经发布了1.0版。Hortonworks也发布了新版本DataFlow 1.2,这个是基于NiFi并专注于流处理的。

在大数据处理领域Lambda架构一直都是通用做法:把所有数据都做持久化存储用于批量处理,再把关键数据抽取出来做实时可视化展示。与批处理相比,实时处理一直都缺乏比较好的通用的管理手段。有了Kinesis Analytics之后,大家在寻找基于云的解决方案时就有了新选择。

查看英文原文Amazon Kinesis Analytics is Like SaaS for Big Data Analysis

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT