BT

InfoQ ホームページ ニュース DataFuがApacheのインキュベーションプロジェクトに

DataFuがApacheのインキュベーションプロジェクトに

ブックマーク

原文(投稿日:2014/02/04)へのリンク

LinkedInによるHadoop用ライブラリのコレクションDataFuプロジェクトが1月第1週,正式にApache Software Foundation(ASF)インキュベーションプロジェクトになった。

DataFuは当初Pig用のUDF(User-Defined Function)のコレクションを中心として,2012年1月に開始されたプロジェクトだ。Piggybankなど有名なUDFのコレクションに比較すると,分位数計算やサンプリング法といった,データマイニングあるいは統計機能が中心だ。しかし2013年10月には,DataFu Hourglassという新しいライブラリがプロジェクトに加わった。Hourglassは,増分データをジョブで処理するためのMapReduce用ライブラリである。通常このような処理は,前回のジョブの状態をHDFS内に保存しておいて,新たな入力を処理するためにそれを使用する,という方法で行われる。どちらのプロジェクトも現在,インキュベータの一部となっている。

Apacheのインキュベーションになったのは,DataFuにとって偉業と呼ぶに相応しい。プロジェクトがインキュベーションに受け入れられるには,厳格な調査を通過した上で,投票プロセスを経由しなければならないからだ。DataFuは2012年始めからApacheと関わりを持っていたが,インキュベータとして受け入れられたのは2014年始めになってからだった。インキュベーションにいるApacheプロジェクトの卒業には通常,かなり長い時間を必要とする。プロジェクトのインフラストラクチャ(wiki, メーリングリスト,チュートリアルなど)が完成すれば,DataFuはASFの独立したトッププロジェクトになるか,あるいはHadoopのサブプロジェクトになるだろう。

Apacheインキュベータに採用されたDataFuには,近い将来に向けた拡張計画が目白押しだ。もっとも重要な機能性のひとつは,より広範に採用されるために,UDF用と同じセットをHiveCrunchに対しても用意することである。その一環として,プロジェクトのビルドシステムを,DataFuコミュニティが現在開発中であるGradkeに移行する作業が進行中だ。AntからGradleに切り替えることで,新機能の追加プロセスがより簡単になり,DataFuコミュニティの統合がさらに促進されると期待できる。

DataFuコミュティは小規模ながら,着実に拡大している。Russell Jurney氏による先日のコントリビューションによって,Open NLPプロジェクトがDataFu 1.3.0の一部として提供されるようになった。メーリングリストでの話題の中心は,UDFをさらに追加して,DataFuを“ビッグデータのWD-40(米国で一般的な潤滑スプレー)”にすることだ,とコントリビュータのMatthew Hayes,Sam Shah両氏は述べている。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

  • タイポみる

    by Matthew Hayes /

    スパムの可能性があると認識されました。モデレーターが確認し問題がなければ24時間以内に公開します。その際あなたへの通知は行われませんのでご了承ください。

    Gradkeー>Gradle

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。