BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Skynet−新しいRubyのMapReduce

Skynet−新しいRubyのMapReduce

ブックマーク

データ処理を分散させるMapReduce設計パターン(source)が2004年にGoogleによって導入され、それにはC++の実装がついてきた。今では、Adam Pisoni氏(サイト・英語)がSkynet(サイト・英語)という名称でリリースした新しいRubyでの実装版が利用可能だ。

Skynetは順応性があり、自動アップグレード機能付きで耐障害性の完全分散型システムで、単一障害点は皆無です。

GoogleのデザインペーパーとSkynetには著しく重要な相違点が2つある。

  • Skynetが生コードをワーカーに送れないこと。
  • Skynetはピア・リカバリシステムを利用しており、ワーカーがお互いを監視していること(サイト・英語)

理由が何であれワーカーが故障する、あるいは機能しなくなると、別のワーカーが気付いて、そのタスクを引き継ぎます。また、Skynetには特別な「マスター」サーバは存在せず、いつでも、どのようなタスクでもマスターの役割を果たすワーカーしか存在しません。こうしたマスターのタスクが停止する可能性もあり、そうすると他のワーカーが引き継ぎます。

Skynetの使用とセットアップは非常に簡単(source)で、これこそMapReduceコンセプトの本当の強みである。Skynetはまた、distributed_findなどのMapReduceの機能を使ってActiveRecordを拡張する。

Rubyで書かれたRuby MapReduceの同種がもう一つ存在し、リリースして1年半になる。Starfish(source)だ。Peter CooperのStarfishに関する複雑な心境(source)を読んで、Skynetの機能とStarfishの比較についてInfoQはAdam Pisoniと情報交換した。

SkynetとStarfishを比べてみてどうですか。

Skynetの開発前にStarfishを観察しましたが、私が必要としている堅牢さに足りないという結論に達しました。Starfishは単純なシステムで、スケーラビリティと制御の点で非常にたくさんの制限があります。また、Starfishの唯一のリファレンス先であるRubyでは、実際にコードブロックを回線を通じて配列させたり、送ったりすることはできないので、Starfishが実際どれほど上手にタスクを分散するか疑問視する傾向もあります。ですから、ブロックXをマシンYで実行する、ということは、元々Xで実行されることになっていたそのコードをマシンYが要求するに過ぎないのです。どのように分散しているのか、よく分かりません。

Starfishでまだ頭が混乱している部分があり、作成者とメールの交換もしましたが、それは実際のコード分散をDRBとどのように処理するかということです。Starfishでは、コードのブロックをmapで使うよう提供するだけです。そのブロックをDRBオブジェクトに変え、ワーカー宛にそのオブジェクトへのリファレンスを送付します。ワーカーはそのコードをローカルで実行することになっています…が、Ruby DRBがこれを許可しません。コードは常にコンパイルされたマシン上で実行されるのです。ですから、すべてのワーカーが同一マシン上で動作しているのであれば、Starfishはうまくいきますが、ワーカーを別のマシンで動作させようとするやいなや、コードがそのマシンに送られたかのように見えるだけで、実はそのコードはソース上で実行されているのです。

その他、Starfishに見られる一番大きな制限は、非同期にジョブを実行できないことです。ですから、たとえばWebページ上でmap/reduceプロセスを開始させるアクションが必要な場合、Starfishのジョブを開始し、次に移る間、実行させ続けることが単純にできないのです。Starfishのジョブを開始したものは、そのジョブが終わるまで待たなければならないのです。 Starfishでは組み込みとして動作させたいコードを使い、小さなアプリケーションを書きます。私が間違っていない限り、同一マシン上で複数の型のMRジョブを実行することはできません。Skynetは汎用MRシステムであり、多数の型の多数のジョブ、つまり、たくさんの異なるコードを実行できます。

Skynetの長所を教えていただけますか。

Skynetはメッセージキューの上に構築されており、利用者のスケーラビリティ要件に応じて、どのメッセージQにするかを選択できます。現在のところ、tuplespaceとmysqlをサポートしています。私たちはmysqlを使っていますが、その理由は、TSよりずっとスケーラブルだからです。次に、Skynetがどのようにジョブを分散し、実行するかについて、完全な柔軟性を持たせてジョブを作成できます。geniで一番よく見られるケースは、単に非同期で実行することです(Starfishでは不可能です)。ですから、新規のMRジョブを作成して実行を要求すれば、すぐに戻ってきます。バックグラウンドでは、ジョブをキューに追加し、ワーカーに作業させているのです。後になって、手に入れたジョブオブジェクトの結果を要求すれば、結果を取り出すことができます。

Skynetはフェイルオーバーもサポートします。ワーカーはお互いを監視します。あるワーカーが時間内にタスクを完了できなければ、別のワーカーが引き継いで、完了を試みます。Skynetはmap_dataのストリーミングもサポートします。つまり、単一データ構造に入れるには大きすぎる、非常に大きなデータセットを扱えることを意味します。

map_dataストリーミングとは何ですか。

map_reduceジョブの実行を希望するほとんどのケースで、分割して並行処理したいデータ配列を供給する必要があります。配列が大きすぎてメモリーに収まらない場合、どうしますか。その場合、配列ではなく可算をSkynetに渡します。そのオブジェクトについては、:nextもしくは:eachを呼び出すことがSkynetには分かっており、「それぞれ」についてmap_tasksを分離し始めます。こうすれば、一度に巨大なデータ構造を作成しようとする人はいないでしょう。

他に話しておきたい機能はありますか。

他にもたくさんの機能がありますが、最後に触れておきたい機能は、Skynetがどれほどうまく既存アプリケーションと統合するかということで、このアプリケーションにはrailsアプリケーションも含まれます。ActiveRecordの拡張まで備えており、全モデル上でタスクを分散方式で実行可能にします。Geniではこの機能性を使って、何百万というモデル上でrubyを実行するという特に複雑なマイグレーションを実行しています。。

> Model.distributed_find(:all, :conditions => "id > 20").each(:somemethod)

Skynetを実行している限り、各モデル上で:somemethodを実行しますが、それは(ありったけのワーカー上での)分散方式になります。分散前にモデルのインスタンス生成もせずに、また、全IDの事前フェッチさえせずに、実行します。 

ユーザーフィードバックはいかがですか。

使い始めている人もいますが、少数であり、ユーザーフィードバックにはまだまったく早すぎる段階です。リリース0.9.2はかなり重要なリリースになっており、リライトやパフォーマンス改善、機能強化が多数入っています。RailsconfでSkynetについて話をすると提案していますが、まだ返答がありません。Skynetの使用法についてScreencastを作成する計画もあります。

原文はこちらです:http://www.infoq.com/news/2008/01/ruby-mapreduce-skynet

この記事に星をつける

おすすめ度
スタイル

BT