InfoQ

InfoQ

News

マイブックマーク

ブックマークするためにログイン または 会員登録 する

ブックマークされました!

ブックマークがエラーになりました。もう一度お願いします。

Skynet−新しいRubyのMapReduce

作者 Sebastien Auvray , 翻訳者 編集部 投稿日 2008年2月6日

セクション
デベロップメント,
設計/アーキテクチャ
トピック
Ruby ,
パフォーマンス&スケーラビリティ
タグ
Rails ,
MapReduce

データ処理を分散させるMapReduce設計パターン(source)が2004年にGoogleによって導入され、それにはC++の実装がついてきた。今では、Adam Pisoni氏(サイト・英語)がSkynet(サイト・英語)という名称でリリースした新しいRubyでの実装版が利用可能だ。

Skynetは順応性があり、自動アップグレード機能付きで耐障害性の完全分散型システムで、単一障害点は皆無です。

GoogleのデザインペーパーとSkynetには著しく重要な相違点が2つある。

  • Skynetが生コードをワーカーに送れないこと。
  • Skynetはピア・リカバリシステムを利用しており、ワーカーがお互いを監視していること(サイト・英語)

理由が何であれワーカーが故障する、あるいは機能しなくなると、別のワーカーが気付いて、そのタスクを引き継ぎます。また、Skynetには特別な「マスター」サーバは存在せず、いつでも、どのようなタスクでもマスターの役割を果たすワーカーしか存在しません。こうしたマスターのタスクが停止する可能性もあり、そうすると他のワーカーが引き継ぎます。

Skynetの使用とセットアップは非常に簡単(source)で、これこそMapReduceコンセプトの本当の強みである。Skynetはまた、distributed_findなどのMapReduceの機能を使ってActiveRecordを拡張する。

Rubyで書かれたRuby MapReduceの同種がもう一つ存在し、リリースして1年半になる。Starfish(source)だ。Peter CooperのStarfishに関する複雑な心境(source)を読んで、Skynetの機能とStarfishの比較についてInfoQはAdam Pisoniと情報交換した。

SkynetとStarfishを比べてみてどうですか。

Skynetの開発前にStarfishを観察しましたが、私が必要としている堅牢さに足りないという結論に達しました。Starfishは単純なシステムで、スケーラビリティと制御の点で非常にたくさんの制限があります。また、Starfishの唯一のリファレンス先であるRubyでは、実際にコードブロックを回線を通じて配列させたり、送ったりすることはできないので、Starfishが実際どれほど上手にタスクを分散するか疑問視する傾向もあります。ですから、ブロックXをマシンYで実行する、ということは、元々Xで実行されることになっていたそのコードをマシンYが要求するに過ぎないのです。どのように分散しているのか、よく分かりません。

Starfishでまだ頭が混乱している部分があり、作成者とメールの交換もしましたが、それは実際のコード分散をDRBとどのように処理するかということです。Starfishでは、コードのブロックをmapで使うよう提供するだけです。そのブロックをDRBオブジェクトに変え、ワーカー宛にそのオブジェクトへのリファレンスを送付します。ワーカーはそのコードをローカルで実行することになっています…が、Ruby DRBがこれを許可しません。コードは常にコンパイルされたマシン上で実行されるのです。ですから、すべてのワーカーが同一マシン上で動作しているのであれば、Starfishはうまくいきますが、ワーカーを別のマシンで動作させようとするやいなや、コードがそのマシンに送られたかのように見えるだけで、実はそのコードはソース上で実行されているのです。

その他、Starfishに見られる一番大きな制限は、非同期にジョブを実行できないことです。ですから、たとえばWebページ上でmap/reduceプロセスを開始させるアクションが必要な場合、Starfishのジョブを開始し、次に移る間、実行させ続けることが単純にできないのです。Starfishのジョブを開始したものは、そのジョブが終わるまで待たなければならないのです。 Starfishでは組み込みとして動作させたいコードを使い、小さなアプリケーションを書きます。私が間違っていない限り、同一マシン上で複数の型のMRジョブを実行することはできません。Skynetは汎用MRシステムであり、多数の型の多数のジョブ、つまり、たくさんの異なるコードを実行できます。

Skynetの長所を教えていただけますか。

Skynetはメッセージキューの上に構築されており、利用者のスケーラビリティ要件に応じて、どのメッセージQにするかを選択できます。現在のところ、tuplespaceとmysqlをサポートしています。私たちはmysqlを使っていますが、その理由は、TSよりずっとスケーラブルだからです。次に、Skynetがどのようにジョブを分散し、実行するかについて、完全な柔軟性を持たせてジョブを作成できます。geniで一番よく見られるケースは、単に非同期で実行することです(Starfishでは不可能です)。ですから、新規のMRジョブを作成して実行を要求すれば、すぐに戻ってきます。バックグラウンドでは、ジョブをキューに追加し、ワーカーに作業させているのです。後になって、手に入れたジョブオブジェクトの結果を要求すれば、結果を取り出すことができます。

Skynetはフェイルオーバーもサポートします。ワーカーはお互いを監視します。あるワーカーが時間内にタスクを完了できなければ、別のワーカーが引き継いで、完了を試みます。Skynetはmap_dataのストリーミングもサポートします。つまり、単一データ構造に入れるには大きすぎる、非常に大きなデータセットを扱えることを意味します。

map_dataストリーミングとは何ですか。

map_reduceジョブの実行を希望するほとんどのケースで、分割して並行処理したいデータ配列を供給する必要があります。配列が大きすぎてメモリーに収まらない場合、どうしますか。その場合、配列ではなく可算をSkynetに渡します。そのオブジェクトについては、:nextもしくは:eachを呼び出すことがSkynetには分かっており、「それぞれ」についてmap_tasksを分離し始めます。こうすれば、一度に巨大なデータ構造を作成しようとする人はいないでしょう。

他に話しておきたい機能はありますか。

他にもたくさんの機能がありますが、最後に触れておきたい機能は、Skynetがどれほどうまく既存アプリケーションと統合するかということで、このアプリケーションにはrailsアプリケーションも含まれます。ActiveRecordの拡張まで備えており、全モデル上でタスクを分散方式で実行可能にします。Geniではこの機能性を使って、何百万というモデル上でrubyを実行するという特に複雑なマイグレーションを実行しています。。

> Model.distributed_find(:all, :conditions => "id > 20").each(:somemethod)

Skynetを実行している限り、各モデル上で:somemethodを実行しますが、それは(ありったけのワーカー上での)分散方式になります。分散前にモデルのインスタンス生成もせずに、また、全IDの事前フェッチさえせずに、実行します。 

ユーザーフィードバックはいかがですか。

使い始めている人もいますが、少数であり、ユーザーフィードバックにはまだまったく早すぎる段階です。リリース0.9.2はかなり重要なリリースになっており、リライトやパフォーマンス改善、機能強化が多数入っています。RailsconfでSkynetについて話をすると提案していますが、まだ返答がありません。Skynetの使用法についてScreencastを作成する計画もあります。

原文はこちらです:http://www.infoq.com/news/2008/01/ruby-mapreduce-skynet

特集コンテンツ一覧

GAE開発の落とし穴

Googleのクラウド環境をつかったGoogle App Engineによる開発するにあたり、初めての試みで苦悩する開発者達の経験をもとに、各開発フェーズにあわせて問題点やどう解決したかをご紹介します

イベントレポート:「Coqチュートリアル#1」

去る1月12日、定理証明支援系ツールCoqの初心者向けチュートリアルが開催さ れた(http://kokucheese.com/event/index/23667/)。今後も2月2日 (http://kokucheese.com/event/index/23744/)、2月9日、2月16日と引き続き開 催されていく予定である。本記事では、開催の様子をレポートする。

Javaの未来についてのNeal Gafter氏とのディスカッション

Choosing Options

Neal Gafter氏はOracleによるJava買収の影響に関する議論、Javaにセグメンテッドスタックやメタオブジェクトプロトコルを追加することについての主張、そしてJavaとC#との比較について話をしてくれた。

Google Dartのエッセンス:アプリケーションの構築、スナップショット、Isolate

GoogleはVMをともなう新しい言語であり、JSコンパイラでもあるDartをプレビューした。 InfoQはDartのアプリの構築に貢献する文法の裏側を探った:スナップショット、Isolate、モジュール方式

CSPベースのモデル検査ツール「Process Analysis Toolkit」

本記事ではCSPベースの「マルチドメイン・モデル検査ツール」である、PAT(Process Analysis Toolkit)について紹介する。モデル検査は、形式手法(Formal Method)という方法論を基礎とする技術であり、複雑さが増大しながらも安全性を求められる、現在のソフトウェア開発の状況に対する処方箋の1つとして注目されている手法である。

Jenkinsによる継続的インテグレーションのススメ(4) ~CloudBeesでJenkinsをサービスとして使う~

前回まで、Jenkinsの幾つかの側面に注目して解説をしてきました。シリーズ最後の今回は、Jenkinsをサービスとして使う方法を紹介します。

書籍『抽象によるソフトウェア設計-Alloyではじめる形式手法-』の紹介

Alloyは、MITにて開発された仕様記述言語であり、ツールによる自動解析を使い、インクリメンタルに形式仕様が書けることが特長である。筆者らはAlloy開発者による、Alloyを使った形式手法入門書を翻訳、今夏にオーム社より刊行した。本記事では、Alloyの簡単な概要と、翻訳書『抽象によるソフトウェア設計』(「Alloy本」)を紹介する。

Windows デバイスで開発するタッチユーザーインターフェイス

スマートフォンを中心としたマルチデバイスにおけるタッチユーザーインターフェイスへの対応は、既に必須の項目となりつつある。本記事では、Windows デバイスにおける UX のベースとなっている「メトロ」というデザイン言語を掘り下げながら、既存環境を意識しつつもどのようにタッチユーザーインターフェイス開発に取り組んでいくべきであるかについて解説していく。