InfoQ ホームページニュース Skynet−新しいRubyのMapReduce

Skynet−新しいRubyのMapReduce

2008年2月6日読了時間 6 分

作者：

Sebastien Auvray

翻訳者

編集部

データ処理を分散させるMapReduce設計パターン(source)が2004年にGoogleによって導入され、それにはC++の実装がついてきた。今では、Adam Pisoni氏(サイト・英語)がSkynet(サイト・英語)という名称でリリースした新しいRubyでの実装版が利用可能だ。

Skynetは順応性があり、自動アップグレード機能付きで耐障害性の完全分散型システムで、単一障害点は皆無です。

GoogleのデザインペーパーとSkynetには著しく重要な相違点が2つある。

Skynetが生コードをワーカーに送れないこと。
Skynetはピア・リカバリシステムを利用しており、ワーカーがお互いを監視していること(サイト・英語)。

理由が何であれワーカーが故障する、あるいは機能しなくなると、別のワーカーが気付いて、そのタスクを引き継ぎます。また、Skynetには特別な「マスター」サーバは存在せず、いつでも、どのようなタスクでもマスターの役割を果たすワーカーしか存在しません。こうしたマスターのタスクが停止する可能性もあり、そうすると他のワーカーが引き継ぎます。

Skynetの使用とセットアップは非常に簡単(source)で、これこそMapReduceコンセプトの本当の強みである。Skynetはまた、distributed_findなどのMapReduceの機能を使ってActiveRecordを拡張する。

Rubyで書かれたRuby MapReduceの同種がもう一つ存在し、リリースして1年半になる。Starfish(source)だ。Peter CooperのStarfishに関する複雑な心境(source)を読んで、Skynetの機能とStarfishの比較についてInfoQはAdam Pisoniと情報交換した。

SkynetとStarfishを比べてみてどうですか。

Skynetの開発前にStarfishを観察しましたが、私が必要としている堅牢さに足りないという結論に達しました。Starfishは単純なシステムで、スケーラビリティと制御の点で非常にたくさんの制限があります。また、Starfishの唯一のリファレンス先であるRubyでは、実際にコードブロックを回線を通じて配列させたり、送ったりすることはできないので、Starfishが実際どれほど上手にタスクを分散するか疑問視する傾向もあります。ですから、ブロックXをマシンYで実行する、ということは、元々Xで実行されることになっていたそのコードをマシンYが要求するに過ぎないのです。どのように分散しているのか、よく分かりません。

Starfishでまだ頭が混乱している部分があり、作成者とメールの交換もしましたが、それは実際のコード分散をDRBとどのように処理するかということです。Starfishでは、コードのブロックをmapで使うよう提供するだけです。そのブロックをDRBオブジェクトに変え、ワーカー宛にそのオブジェクトへのリファレンスを送付します。ワーカーはそのコードをローカルで実行することになっています…が、Ruby DRBがこれを許可しません。コードは常にコンパイルされたマシン上で実行されるのです。ですから、すべてのワーカーが同一マシン上で動作しているのであれば、Starfishはうまくいきますが、ワーカーを別のマシンで動作させようとするやいなや、コードがそのマシンに送られたかのように見えるだけで、実はそのコードはソース上で実行されているのです。

その他、Starfishに見られる一番大きな制限は、非同期にジョブを実行できないことです。ですから、たとえばWebページ上でmap/reduceプロセスを開始させるアクションが必要な場合、Starfishのジョブを開始し、次に移る間、実行させ続けることが単純にできないのです。Starfishのジョブを開始したものは、そのジョブが終わるまで待たなければならないのです。 Starfishでは組み込みとして動作させたいコードを使い、小さなアプリケーションを書きます。私が間違っていない限り、同一マシン上で複数の型のMRジョブを実行することはできません。Skynetは汎用MRシステムであり、多数の型の多数のジョブ、つまり、たくさんの異なるコードを実行できます。

Skynetの長所を教えていただけますか。

Skynetはメッセージキューの上に構築されており、利用者のスケーラビリティ要件に応じて、どのメッセージQにするかを選択できます。現在のところ、tuplespaceとmysqlをサポートしています。私たちはmysqlを使っていますが、その理由は、TSよりずっとスケーラブルだからです。次に、Skynetがどのようにジョブを分散し、実行するかについて、完全な柔軟性を持たせてジョブを作成できます。geniで一番よく見られるケースは、単に非同期で実行することです（Starfishでは不可能です）。ですから、新規のMRジョブを作成して実行を要求すれば、すぐに戻ってきます。バックグラウンドでは、ジョブをキューに追加し、ワーカーに作業させているのです。後になって、手に入れたジョブオブジェクトの結果を要求すれば、結果を取り出すことができます。

Skynetはフェイルオーバーもサポートします。ワーカーはお互いを監視します。あるワーカーが時間内にタスクを完了できなければ、別のワーカーが引き継いで、完了を試みます。Skynetはmap_dataのストリーミングもサポートします。つまり、単一データ構造に入れるには大きすぎる、非常に大きなデータセットを扱えることを意味します。

map_dataストリーミングとは何ですか。

map_reduceジョブの実行を希望するほとんどのケースで、分割して並行処理したいデータ配列を供給する必要があります。配列が大きすぎてメモリーに収まらない場合、どうしますか。その場合、配列ではなく可算をSkynetに渡します。そのオブジェクトについては、:nextもしくは:eachを呼び出すことがSkynetには分かっており、「それぞれ」についてmap_tasksを分離し始めます。こうすれば、一度に巨大なデータ構造を作成しようとする人はいないでしょう。

他に話しておきたい機能はありますか。

他にもたくさんの機能がありますが、最後に触れておきたい機能は、Skynetがどれほどうまく既存アプリケーションと統合するかということで、このアプリケーションにはrailsアプリケーションも含まれます。ActiveRecordの拡張まで備えており、全モデル上でタスクを分散方式で実行可能にします。Geniではこの機能性を使って、何百万というモデル上でrubyを実行するという特に複雑なマイグレーションを実行しています。。

> Model.distributed_find(:all, :conditions => "id > 20").each(:somemethod)

Skynetを実行している限り、各モデル上で:somemethodを実行しますが、それは（ありったけのワーカー上での）分散方式になります。分散前にモデルのインスタンス生成もせずに、また、全IDの事前フェッチさえせずに、実行します。

ユーザーフィードバックはいかがですか。

使い始めている人もいますが、少数であり、ユーザーフィードバックにはまだまったく早すぎる段階です。リリース0.9.2はかなり重要なリリースになっており、リライトやパフォーマンス改善、機能強化が多数入っています。RailsconfでSkynetについて話をすると提案していますが、まだ返答がありません。Skynetの使用法についてScreencastを作成する計画もあります。

原文はこちらです：http://www.infoq.com/news/2008/01/ruby-mapreduce-skynet

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

Skynet−新しいRubyのMapReduce

この記事に星をつける

このコンテンツのトピックはデータベースです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

DeepSeek-V3.2が推論タスクでGPT-5を上回る

OpenAIがFrontierを発表、企業全体でAI エージェントを構築・デプロイ・管理するプラットフォーム

Meta社とHugging Face社、エージェント環境の共有ハブ「OpenEnv」を発表

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Skynet−新しいRubyのMapReduce

この記事に星をつける

このコンテンツのトピックは データベース です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックはデータベースです。