BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース GreenplumのPivotal HDがSQLのパワーとHadoopを結合する

GreenplumのPivotal HDがSQLのパワーとHadoopを結合する

ブックマーク

原文(投稿日:2013/02/27)へのリンク

 

EMC Greenplum が新しいHadoopディストリビューションの Pivotal HD を発表した。HDFS上で "Hiveより数百倍高速" に動作するという,SQL完全準拠のMPPデータベースを備える。

Pivotal HD は標準的なHadoopディストリビューション – HDFS,Pig,Hive,Mahout,MapReduceなど – の持つ特徴に加えて,下記のアーキテクチャ・スナップショットに示すような多数のコンポーネントを含んでいる。 

Pivitalのメインコンポーネントは,MPP (Massively Parallel Processing/超並列処理) リレーショナルデータベースのHAWQだ。動的パイプライン機構を通じてHadoopのHDFS上で直接動作するこのデータベースは,次のような特徴を持っている。

  • SQL準拠 – '92,'93,2003 OLAPなど,全バージョンのSQLをサポートする。PostgreSQL 8.2と100%互換。
  • 行または列指向のデータストレージ。
  • クエリ・オプティマイザ – 数十万のノード上でクエリの分散実行が可能。
  • ODBC/JDBC完全準拠。
  • インタラクティブ・クエリ – 巨大なデータを扱う複雑なクエリでも,秒ないしサブ秒のオーダで解析する。
  • データ管理 – テーブルの統計情報とセキュリティを提供する。
  • HDFS,Hive,HBase,Avro,ProBufに格納されたデータ,区切りテキスト,シーケンスファイルをサポートする。
  • Deep Analytics – データマイニング,機械学習アルゴリズムなどを備える。

Greenplumのシニアディレクタ兼エンジニアであるGavin Sherry氏が行ったデモ (ビデオ: 42'42"付近) では,60ノードHDFSクラスタ上の10億行,合計で数TBに及ぶデータを対象として,以下のSQL SELECT文を13秒以内で実行するという,ほぼリアルタイムのクエリ機能が披露されている。

 

SELECT gender, count (*)

 

FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID

GROUP BY gender;

EMC Greenplumのソリューションアーキテクトである Donald Miner 氏によると,同社が提供する次の図(PDF)に示すように,"HAWQはHiveの数百倍高速” だ。 

HAWQは"巨大なデータセットを対象に,SQLの機能をフル活用するような処理を,単一エンジン上で複数同時に実行するような場合でも,1秒未満のレスポンスタイムで" クエリを処理することができる。そのようなことが可能な理由を,Miner氏は次のように説明する。

このシステムでは,各テーブルの部分を管理する "セグメントサーバ" という概念を持っています。クラスタの各データノードで複数のセグメントサーバが動作します。データの各セグメントはすべてHDFS内部に格納されています。"マスタ"ノードがトップレベルのメタデータの格納を行うと同時に,クエリプランを構築し,各ノードで実行するクエリをセグメントサーバに配信するのです。

クエリが起動するとデータがHDFSから読み出されて,HAWQ実行エンジンへと渡されます。HAWQはMPPアーキテクチャに従って,パイプラインの各ステージ経由でデータをストリーミングします。ディスクへの保存やチェックポイントの記録 (MapReduceのような) は行いません。さらにセグメントサーバは常時実行していますので,スピンアップの時間も不要になります。

Pivotal HDは3種類のパッケージ (PDF: Enterprise,Database Services, 評価用のCommunity Edition) で提供されている。

 

この記事に星をつける

おすすめ度
スタイル

BT