BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

大数据周报第8期:Apache Beam将统一大数据平台的开发

| 作者 侠天 关注 5 他的粉丝 发布于 2016年5月10日. 估计阅读时间: 2 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

开源新闻:

  1. AirFlow加入Apache孵化器
    AirFlow加入Apache孵化器工程。AirFlow是一个工作流和调度系统,用来管理数据管道。由AirBnb开发并在内部使用,于去年九月份开源。

  2. Apache Apex成为Apache顶级项目
    Apache Apex是基于Hadoop的流处理和批处理引擎,目前成为Apache顶级项目。

  3. Apache Beam将统一大数据平台的开发
    Apache Beam将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark和Flink等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行。

  4. 开源项目:Spark分布式训练深度神经网络
    用Spark分布式训练深度神经网络,可直接在已有Spark集群上安装,简单易学习。

实践:

  1. 基于Storm和Morphlines一体化实现实时清洗
    使用Storm做实时数据清洗(ETL),从数据Arriving 到数据 Serving一体化(Topology)解决。数据格式转换可以借助kitesdk morphlines来配置完成。
  2. Netflix的数据管道演化系列》(1)、《Netflix的数据管道演化系列》(2)
    Netflix的数据管道演化,从Chukwa管道到Kafka管道。并详细介绍Kafka管道架构技术,包括Kafka数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka容灾和Kafka监控等。
  3. Qsquery支持Syslog和Amazon Kinesis
    Qsquery是Facebook开源的一款支持SQL查询系统的各项指标,可以用于OSX和Linux操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb工程师开发插件支持Syslog收集,并把查询结果发送到Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT