BT

【QCon Tokyo 2015 講演レポート】日々数十億レコードにおよぶログ情報を処理するビックデータ分析におけるApache Sparkの先進的活用

| 作者 株式会社サイバーエージェント アドテクスタジオ 井上ゆり氏 フォローする 0 人のフォロワー , 輝氏 フォローする 0 人のフォロワー , InfoQ編集部 フォローする 0 人のフォロワー , 谷口 フォローする 0 人のフォロワー 投稿日 2015年5月25日. 推定読書時間: 3 分 |

数々の新しいプロダクトを開発・提供し続けているサイバーエージェントのアドテクスタジオ。日々数十億レコードのログを処理する広告配信の現場で、いま最も注目を集めている「Apache Spark」の積極的な活用にチャレンジしている。前半では広告配信の現場でどのようにApache Sparkを活用しているかや、社内で自発的な研究開発体制として取り組んでいる「Sparkゼミ」の活動・成果について、後半ではデータサイエンティストの視点からApache Sparkが今後の分析環境にどう影響していくのかについて語った。


<講演者>
株式会社サイバーエージェント
アドテクスタジオ AMoAd サーバーサイドエンジニア
井上 ゆり 氏

株式会社サイバーエージェント
アドテクスタジオ SAT(Scientific Advertising Team) データサイエンティスト
谷口 和輝 氏
 

大規模データのアドホック分析を
リアルタイムに実行する手段を求めた


サイバーエージェントのAMoAdでは、スマートフォン向けのアドネットワークを通じた広告配信を行っており、数十億レコードにおよぶログ情報を日々処理している。サイズで言えば1TBを超える膨大なデータ量だ。
セッションの前半に登壇した同社 アドテクスタジオ AMoAdのサーバーサイドエンジニアである井上ゆり氏は、「これらのデータを単に集積するだけでなく、アドホックな分析をリアルタイムに実行する必要がありました」と語った。この課題解決のために導入したのが、DAGベースの汎用並列処理エンジンとして、従来のMapReduceと比べて10倍のスピードを発揮すると言われる「Apache Saprk」である。
Sparkの実行環境として主に活用しているのは、「Apache Zeppelin」と「iPython Notebook」の2つのツールだ。前者はSparkにWebUIの機能を付加するノートブック形式のデータ分析であり、「気軽にデータをビジュアラーゼーションするために使っています」。後者はPythonにおける対話実行をインタラクティブな環境でサポートするツールで、「より複雑な分析を行ったり、統計情報を扱ったりする目的で活用しています」と井上氏は語った。
また、アドテクスタジオの有志による活動である「Sparkゼミ」の取り組みを紹介。「日々の業務で培ったスケール力を活かし、塾長(リーダー)以下7名のメンバーで、ひたすらApache Sparkへのコントリビュートを行ってきました」と井上氏は語ると共に、実際にApache Spark 1.3.0にコントリビュートした成果を示した。


Sparkはデータサイエンティストの
次世代分析基盤となる

後半では同社 アドテクスタジオのSAT(Scientific Advertising Team)に所属し、先述のSparkゼミのメンバーとしても活躍している谷口和輝氏が登壇。データサイエンティストの立場から注目しているApache Sparkについて、「大規模データのETLから分析まで幅広く対応し、高速処理を担う次世代の分析基盤となります」と示唆した。
谷口氏によるとアドテクスタジオのデータサイエンティストは、配信された広告に対するクリックやインプレッション、コンバージョンに伴って発生するログ、ユーザー固有データの分析など、毎日がビッグデータとの格闘だ。また、アドテク市場そのものが急成長する中で、ビジネスにおける意思決定のスピードアップが喫緊の課題となっており、「より正確かつ素早いデータ分析が求められています」と語った。
アドテクスタジオは、その様々な場面でApache Sparkを活用しているのである。谷口氏は機械学習のライブラリ「MLlib」をはじめ、複数のデータソースへの接続およびデータ収集を行う「Spark SQL」、収集したデータを分析目的にあわせて加工する「DataFarme」といったツールを取り上げ、具体的な活用事例を示した。
また、SparkゼミがコントリビュートしたApache Spark 1.3.0にも触れ、「既存のデータサイエンティストの移行コストが大幅に減少しました」と谷口氏は語った。

まだまだ未知の領域が多いApache Sparkではあるが、「アドテクスタジオをはじめサイバーエージェントはSparkの先進ユーザーを自負するとともに、コントリビューターの一員としても今後のSparkのさらなる発展に貢献していきたいと考えています」と、井上氏と谷口氏は共に熱い意気込みを示した。

 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT