BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Apache Eagle毕业成为顶级项目

| 作者 Alexandre Rodrigues 关注 0 他的粉丝 ,译者 尚剑 关注 2 他的粉丝 发布于 2017年2月4日. 估计阅读时间: 3 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

Apache Eagle是一个识别大数据平台上的安全和性能问题的开源解决方案,2017年1月10日,Apache Eagle毕业成为Apache顶级项目。

Eagle首先由eBay在2015年10月开源,它主要用来即时监测敏感数据访问和恶意活动,并及时采取行动。除了数据活动管理,Eagle也可以用于节点异常检测,集群和作业性能分析。

作业性能分析是通过处理YARN应用日志和对YARN中所有运行的作业进行快照分析来完成的。Eagle可以检测单个作业趋势、数据偏斜问题、故障原因和考虑所有运行的作业情况下评估集群的整体性能。Eagle通过计算每个节点的任务失败率来监测行为异常和需要关注的节点。至于集群性能,Eagle通过计算每个YARN作业占用的资源并把它与横向服务的指标(比如HDFS namenode)来帮助识别整体集群缓慢的原因。

Apache Eagle依赖于Apache Storm来进行数据活动和操作日志的流处理,并且可以执行基于策略的检测和报警。它提供多个API:作为基于Storm API上的一层抽象的流式处理API和policy engine provider API的抽象,它将WSO2的开源Siddhi CEP engine作为第一类对象。Siddhi CEP engine支持报警规则的热部署,并且警报可以使用属性过滤和基于窗口的规则(例如,在10分钟内三次以上的访问)来定义。

Apache Eagle中还包括一个基于机器学习的policy provider。它从过去的用户行为中学习,来将数据访问分类为异常或者正常。这个机器学习policy provider评估在Apache Spark框架中离线训练的模型。Eagle用两种机器学习方法计算用户配置信息:一个方法是密度估计,用来计算每个用户/活动的高斯概率密度和一个阈值,另一个方法是特征值分解,通过减少用户和活动的特征维度来提取其行为模式。

数据集成是使用Apache Kafka通过logstash forwarder 代理或通过log4j kafka appender来实现的。来自多个Hadoop守护进程(例如,namenode,datanode等)的日志条目被反馈到Kafka并由Storm处理。Eagle支持将数据资产分类为多个灵敏度类型。

Eagle支持使用Apache HBase和关系数据库持久化警报。警报可通过电子邮件、Kafka或存储在Eagle支持的存储中进行通知。你也可以开发自己的警报通知插件

查看英文原文:Apache Eagle, Originally from eBay, Graduates to top-level project


感谢王纯超对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT