BT

InfoQ ホームページ ニュース リアルタイムHadoopの実装競争が激しくなってきた

リアルタイムHadoopの実装競争が激しくなってきた

ブックマーク
 

原文(投稿日:2013/03/01)へのリンク

GoogleのDremel論文の公開以来、HadoopコミュニティはHadoopの周りに同じような機能を構築しようとしてきた。最初、オープンDremel、現在Apache Drillの一部である、は昨年Apacheのインキュベータプロジェクトになった。次に、やはり昨年、ClouderaがImpalaを導入した。これは現在ベータ段階で、 Cloudera Hadoopディストリビューションである CDH 4.1の一部になっている。

この世界の新しい競争相手は、Stinger Initiativeで、先週 Hortonworksによって、Apacheのインキュベートプロセスに持ち込まれた。目指しているのは、

Hiveを人が耐えられる時間内のユースケース(すなわち5~30秒の範囲でクエリする)に答えられるようになることです。例えば、ビッグデータ探索、視覚化、パラメータ化されたレポートは、別のツールをインストール、保守、学習することに頼ることなく、既存のHiveのスキルを持ち、投資をしているユーザーの大きなコミュニティに多大な価値を提供できる。

Hortonworksは、この目標を達成するために、以下のことを実現しようとしている。

·         HiveをもっとSQL準拠にする。Hiveに欠けているSQLタイプや‘where’クローズでのサブクエリをサポートすることを含む。

·         Hiveの実行計画を最適化する。

·         新しいHadoopの列フォーマットをサポートする。これは、ORCFileと呼ばれる( Dremel, Drillそして ClouderaのTreviniに似ている)

·         新しいランタイムフレームワークTezの導入。YARNをベースにしている。

 ヒンズー語で「スピード」を意味するTezは、現在Apacheでインキュベーション投票の下にある。

… 汎用目的で、高度にカスタマイズ可能なフレームワークは、Hadoopにおいて小規模(低遅延)と大規模(高スループット)の両方の作業負荷に跨って、データ処理タスクの作成を簡単にする。それは、MapReduce パラダイムをもっと強力なフレームワークに一般化している。このことは、1つのジョブに、複数タスクの複雑なDAG(非循環有向グラフ)を実行する機能を提供することで実現され、その結果 Apache Hadoopエコシステムにおけるプロジェクト、例えば、 Apache Hive, Apache Pig 、Cascading は、人とやりとりする応答時間やペタバイト規模での強烈なスループットの要求を満足することができる。(明らかに MapReduceは、この実現におけるキードライバーである)。

現在の「リアルタイム」Hadoopクエリ実装の3つ全て- Drill, Impala、このStingerは、既にあるいは、近々オープンソースプロジェクトになり、リアルタイムHadoopクエリの重要な問題を解決するために、コミュニティのサポートとインプットを活用できる。   

 

 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。