BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ アーティクル 【QCon Tokyo 2015 講演レポート】日々数十億レコードにおよぶログ情報を処理するビックデータ分析におけるApache Sparkの先進的活用

【QCon Tokyo 2015 講演レポート】日々数十億レコードにおよぶログ情報を処理するビックデータ分析におけるApache Sparkの先進的活用

ブックマーク

数々の新しいプロダクトを開発・提供し続けているサイバーエージェントのアドテクスタジオ。日々数十億レコードのログを処理する広告配信の現場で、いま最も注目を集めている「Apache Spark」の積極的な活用にチャレンジしている。前半では広告配信の現場でどのようにApache Sparkを活用しているかや、社内で自発的な研究開発体制として取り組んでいる「Sparkゼミ」の活動・成果について、後半ではデータサイエンティストの視点からApache Sparkが今後の分析環境にどう影響していくのかについて語った。


<講演者>
株式会社サイバーエージェント
アドテクスタジオ AMoAd サーバーサイドエンジニア
井上 ゆり 氏

株式会社サイバーエージェント
アドテクスタジオ SAT(Scientific Advertising Team) データサイエンティスト
谷口 和輝 氏
 

大規模データのアドホック分析を
リアルタイムに実行する手段を求めた


サイバーエージェントのAMoAdでは、スマートフォン向けのアドネットワークを通じた広告配信を行っており、数十億レコードにおよぶログ情報を日々処理している。サイズで言えば1TBを超える膨大なデータ量だ。
セッションの前半に登壇した同社 アドテクスタジオ AMoAdのサーバーサイドエンジニアである井上ゆり氏は、「これらのデータを単に集積するだけでなく、アドホックな分析をリアルタイムに実行する必要がありました」と語った。この課題解決のために導入したのが、DAGベースの汎用並列処理エンジンとして、従来のMapReduceと比べて10倍のスピードを発揮すると言われる「Apache Saprk」である。
Sparkの実行環境として主に活用しているのは、「Apache Zeppelin」と「iPython Notebook」の2つのツールだ。前者はSparkにWebUIの機能を付加するノートブック形式のデータ分析であり、「気軽にデータをビジュアラーゼーションするために使っています」。後者はPythonにおける対話実行をインタラクティブな環境でサポートするツールで、「より複雑な分析を行ったり、統計情報を扱ったりする目的で活用しています」と井上氏は語った。
また、アドテクスタジオの有志による活動である「Sparkゼミ」の取り組みを紹介。「日々の業務で培ったスケール力を活かし、塾長(リーダー)以下7名のメンバーで、ひたすらApache Sparkへのコントリビュートを行ってきました」と井上氏は語ると共に、実際にApache Spark 1.3.0にコントリビュートした成果を示した。


Sparkはデータサイエンティストの
次世代分析基盤となる

後半では同社 アドテクスタジオのSAT(Scientific Advertising Team)に所属し、先述のSparkゼミのメンバーとしても活躍している谷口和輝氏が登壇。データサイエンティストの立場から注目しているApache Sparkについて、「大規模データのETLから分析まで幅広く対応し、高速処理を担う次世代の分析基盤となります」と示唆した。
谷口氏によるとアドテクスタジオのデータサイエンティストは、配信された広告に対するクリックやインプレッション、コンバージョンに伴って発生するログ、ユーザー固有データの分析など、毎日がビッグデータとの格闘だ。また、アドテク市場そのものが急成長する中で、ビジネスにおける意思決定のスピードアップが喫緊の課題となっており、「より正確かつ素早いデータ分析が求められています」と語った。
アドテクスタジオは、その様々な場面でApache Sparkを活用しているのである。谷口氏は機械学習のライブラリ「MLlib」をはじめ、複数のデータソースへの接続およびデータ収集を行う「Spark SQL」、収集したデータを分析目的にあわせて加工する「DataFarme」といったツールを取り上げ、具体的な活用事例を示した。
また、SparkゼミがコントリビュートしたApache Spark 1.3.0にも触れ、「既存のデータサイエンティストの移行コストが大幅に減少しました」と谷口氏は語った。

まだまだ未知の領域が多いApache Sparkではあるが、「アドテクスタジオをはじめサイバーエージェントはSparkの先進ユーザーを自負するとともに、コントリビューターの一員としても今後のSparkのさらなる発展に貢献していきたいと考えています」と、井上氏と谷口氏は共に熱い意気込みを示した。

 

この記事に星をつける

おすすめ度
スタイル

BT