BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Apache Eagleがトップレベルプロジェクトに昇格

Apache Eagleがトップレベルプロジェクトに昇格

ブックマーク

原文(投稿日:2017/01/24)へのリンク

ビッグデータプラットフォーム上でのセキュリティおよびパフォーマンスに関する問題を特定する,オープンソースソリューションのApache Eagleが,2017年1月10日,Apacheのトップレベルプロジェクトに昇格した。

eBayが2015年10月にオープンソースとしたEagleは,機密データへのアクセスや悪意のある活動を簡単に検出し,タイムリに対応する目的で開発されたソフトウェアだ。データアクティビティの監視に加えて,ノードの異常検出,クラスタおよびジョブのパフォーマンス分析といった機能も備えている。

ジョブパフォーマンスの解析は,YARNアプリケーションログの解析と,YARN内で実行する全ジョブのスナップショットを取得することで行われる。Eagleは単一のジョブトレンド,データスキュー問題,障害理由の検出に加えて,実行中のすべてのジョブを前提として,クラスタ全体のパフォーマンスを評価する能力を備えている。また,各ノード毎のタスク障害率を計算して,他と異なる振る舞いを見せるノードを検出して注意を促す。クラスタのパフォーマンスに関しては,各YARNジョブが使用するリソースを算出し,トランスバーサルサービスの計測値(HDFS namenodeのものなど)との関連付けを行うことによって,クラスタ全体の遅さの原因特定を支援する。

データアクティビティと運用ログのストリーミング処理にはApache Stormを使用し,ポリシベースの検出と警告を実現している。Apache Eagleは複数のAPIを提供している。Storm API上の抽象化としてのストリーミングAPIに加えて,WSO2からオープンソース公開されたSiddhi CEPエンジンの機能を公開するポリシエンジンプロバイダAPIも一級市民として提供する。Siddhi CEPエンジンは警告ルールのホットデプロイメントをサポートしている。警告は属性フィルタリングやWindowsベースのルール(10分間に3回以上アクセスされた,等)を定義することが可能だ。

機械学習ベースのポリシプロバイダも備えていて,過去のユーザ行動を学習し,データアクセスが異常かどうかを判別することができる。この機械学習ポリシのプロバイダには,Apache Sparkフレームワーク内でオフライントレーニングされた評価モデルが提供されている。Eagleにはユーザプロファイルの計算手段として,ガウス確率密度を算出して各ユーザ/アクティビティとしきい値を求める密度推定(density estimation)と,ユーザおよびアクティビティの特徴の次元を減少させることによって振る舞いのパターンをキャプチャする固有値分解(eigen-value decomposition)という,2つの機械学習メソッドが添付されている

データの統合はApache Kafkaを使用して,Logstashフォワーダエージェントまたはlog4j kafkaアペンダを通じて実現されている。複数のHadoopデーモン(namenode, datanodeなど)が発行するログ情報がKafkaに入力され,Stormトポロジによって参照される仕組みだ。またEagleでは,データ資産を複数の重要度に分類することもできる

Apache Eagle User Profiling Architecture

Eagleは警告情報の永続化手段として,リレーショナルデータベース以外にApache HBaseをサポートしている。警告はEメールやKafka経由で通知する他,Eagleのサポートするストレージに保存することもできる。警告通知プラグインを独自に開発することも可能だ。

 
 

この記事を評価

関連性
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

BT