Cascading -- Hadoop MapReduce向けデータ処理系API

Cascading(リンク)はHadoop(リンク)クラスタ上でデータ処理する新しい処理系API であり、Hadoop MapReduceアルゴリズムを直接実装するのとは対照的に、表現豊かなAPIを使って複雑な処理ワークフローの構築をサポートする。

この処理系APIにより、開発者はMapReduce(リンク)で「考える」必要なしに、複雑な分散プロセスを素早く組み立てられます。また、依存性やその他の利用可能なメタデータに基づいて、効率的にスケジュールできます。

Cascadingの概念の中核にあるのは、パイプとフローである。パイプは、これから行われるデータ処理を定義する一連の処理ステップ（パース、ループ、フィルタなど）であり、フローはパイプ（もしくはパイプ一式）をデータソースやデータシンクと関連づけるものである。換言すれば、フローはデータが通っている状態のパイプである。さらに一歩進めると、カスケードとは複数のフローをつなげ、分岐し、グループ化することである。

このAPIが提供する重要機能は多数ある。

依存性ベースの「トポロジー型スケジューラー」とMapReduceの計画立案 -- Cascadingの2つの重要コンポーネントが、依存性に基づいてフローの呼び出しをスケジュールする能力を発揮します。実行順序は構築順序から独立しているため、フローやカスケードの部分的な同時呼び出しが可能なことが多々あります。さらに、様々なフローのステップをhadoopクラスタと対比して、インテリジェントにmap-reduceの呼び出しに変換します。
イベント通知 -- フローの様々なステップは、コールバックを介して通知を実行できるため、ホストアプリケーションはデータ処理の進行状況をレポートし、反応できます。
スクリプト可能 -- Cascadingは、JythonやGroovy、JRuby用のスクリプト可能なインタフェースを備えているので、人気の高い動的JVM言語で容易にアクセス可能です。

Cascadingの概念や実装を学べる文書が多数存在する。ウォークスルーでCascadingの中心概念(リンク)を紹介するハイレベルの概説プレゼンテーションがPDF版で手に入る。また、単純なApacheログパーサーの作成をウォークスルーする「やさしい入門」例もある(リンク)。最後になるが、Cascadingに関するJavadocの完全版もある(リンク)。

原文はこちらです：http://www.infoq.com/news/2008/10/cascading

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Architecture です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco