BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Beam晋升Apache顶级项目

| 作者 Dylan Raithel 关注 9 他的粉丝 ,译者 麦克周 关注 20 他的粉丝 发布于 2017年2月27日. 估计阅读时间: 3 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

Beam最近成功地晋升为Apache软件基金会的顶级项目,Beam的目标包括使用灵活的高层及数据流处理不限时间、无序、全球规模的数据。Beam最初是由Google内部项目创建,随后被捐献给了Apache,并于2016年2月开始一直孵化到当年年底。Beam项目寻求针对流式和批处理任务创建一个统一编程模型,并且产生可以被许多已经支持的数据处理引擎消费的组件。Beam寻求:

为世界提供一个易用的、强大的数据并行处理模型,支持包括流式和批处理,灵活地在各种实时平台之间工作。Beam SDKs使用相同的类展现有限和无限数据,并且基于这些数据至上做相同的转换操作。

Java和Python的SDK支持提供了选择的后台处理引擎和处理管道组件之间的抽象层。支持的处理引擎包括ApacheApexFlinkSpark以及Google Cloud Dataflow引擎。

Beam管道的编程模型包括PCollection(s)、Transform(s)和Pipeline I/O,以及每个支持处理引擎的Runners,对于本地DirectRunner不作为默认的Beam:

Google开源Beam的动机是作为新兴商业业务的一部分,用以支持集成,同时贡献给其他开源项目。基本想法是这样做可以增加Beam的潜在使用几率,深层次是想要提升Google Dataflow平台的曝光度,深层次原因是因为Beamd的出现会提升已经支持的处理引擎。Google在Spark和Beam之间进行了比较,注明Beam模型由于它专注于流式和批量数据处理,所以Beam是正确的模型选择,并且通过启用事件时间窗口(Event-Time Windowing)、水印(Watermark)、触发(Trigger)特性等证明了语义重要性。开源社区和数据科学产业还不能独立于Google进行数据验证,并且应该围绕系统架构和基准使用更多的用例分析。早期迹象显示Beam社区正在不断发展,并且围绕支持多个处理平台也有积极的反馈。

查看英文原文:Beam Graduates to Top-Level Apache Project


感谢刘志勇对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

这消息也太慢了。。 by blog ite

这都快2个月的事了。。。

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

1 讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT