GreenplumのPivotal HDがSQLのパワーとHadoopを結合する

原文(投稿日：2013/02/27)へのリンク

EMC Greenplum が新しいHadoopディストリビューションの Pivotal HD を発表した。HDFS上で "Hiveより数百倍高速" に動作するという，SQL完全準拠のMPPデータベースを備える。

Pivotal HD は標準的なHadoopディストリビューション – HDFS，Pig，Hive，Mahout，MapReduceなど – の持つ特徴に加えて，下記のアーキテクチャ・スナップショットに示すような多数のコンポーネントを含んでいる。

Pivitalのメインコンポーネントは，MPP (Massively Parallel Processing/超並列処理) リレーショナルデータベースのHAWQだ。動的パイプライン機構を通じてHadoopのHDFS上で直接動作するこのデータベースは，次のような特徴を持っている。

SQL準拠 – '92，'93，2003 OLAPなど，全バージョンのSQLをサポートする。PostgreSQL 8.2と100%互換。
行または列指向のデータストレージ。
クエリ・オプティマイザ – 数十万のノード上でクエリの分散実行が可能。
ODBC/JDBC完全準拠。
インタラクティブ・クエリ – 巨大なデータを扱う複雑なクエリでも，秒ないしサブ秒のオーダで解析する。
データ管理 – テーブルの統計情報とセキュリティを提供する。
HDFS，Hive，HBase，Avro，ProBufに格納されたデータ，区切りテキスト，シーケンスファイルをサポートする。
Deep Analytics – データマイニング，機械学習アルゴリズムなどを備える。

Greenplumのシニアディレクタ兼エンジニアであるGavin Sherry氏が行ったデモ (ビデオ: 42'42"付近) では，60ノードHDFSクラスタ上の10億行，合計で数TBに及ぶデータを対象として，以下のSQL SELECT文を13秒以内で実行するという，ほぼリアルタイムのクエリ機能が披露されている。

SELECT gender, count (*)

FROM retail.order JOIN customers ON retail.order.customer_ID = customers.customer_ID

GROUP BY gender;

EMC Greenplumのソリューションアーキテクトである Donald Miner 氏によると，同社が提供する次の図(PDF)に示すように，"HAWQはHiveの数百倍高速” だ。

HAWQは"巨大なデータセットを対象に，SQLの機能をフル活用するような処理を，単一エンジン上で複数同時に実行するような場合でも，１秒未満のレスポンスタイムで" クエリを処理することができる。そのようなことが可能な理由を，Miner氏は次のように説明する。

このシステムでは，各テーブルの部分を管理する "セグメントサーバ" という概念を持っています。クラスタの各データノードで複数のセグメントサーバが動作します。データの各セグメントはすべてHDFS内部に格納されています。"マスタ"ノードがトップレベルのメタデータの格納を行うと同時に，クエリプランを構築し，各ノードで実行するクエリをセグメントサーバに配信するのです。

クエリが起動するとデータがHDFSから読み出されて，HAWQ実行エンジンへと渡されます。HAWQはMPPアーキテクチャに従って，パイプラインの各ステージ経由でデータをストリーミングします。ディスクへの保存やチェックポイントの記録 (MapReduceのような) は行いません。さらにセグメントサーバは常時実行していますので，スピンアップの時間も不要になります。

Pivotal HDは３種類のパッケージ (PDF: Enterprise，Database Services，評価用のCommunity Edition) で提供されている。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Architecture です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco