BT

Amazon EMRがApache HBaseをサポート

| 作者: Boris Lublinsky フォローする 1 人のフォロワー , 翻訳者 徳武 聡 フォローする 0 人のフォロワー 投稿日 2012年6月18日. 推定読書時間: 3 分 |

原文(投稿日:2012/06/15)へのリンク

 

今週、AmazonはAmazon Elastic Map Reduce (EMR)上でのHBaseのサポートを発表した。Jeff Barr氏によれば

AWSはすでにさまざまなのストレージや処理方法を選択肢として提供しています。そして、今日最も重要な製品を追加します。AWS上でApache HBaseを使って巨大なデータ(例えば、10億行100万列のデータ)を保持し処理できるようになります。

Barr氏によれば、EMRでHBaseをサポートするというAmazonの決定によって、下記の重要な機能がもたらされる。

  • 読み書きの厳密な一貫性
  • 書き込みの高スループット
  • テーブルの自動シャーディング
  • 空の多いデータの効率的格納
  • インメモリ処理によるデータアクセス遅延の低減
  • Hadoopのジョブへの直接入出力
  • Apache Hiveとの統合によるHBaseテーブルへのSQLライクなクエリでの問い合わせや、結合、JDBCのサポート

EMRで利用できるHBaseのバージョンは0.92。氏によれば、EMR上でのHBaseは下記のような用途に適している。

  • Hadoop Analyticsでのデータ参照の支援 - HBaseは高速なデータアクセスを提供するので、単一あるいは複数のHadoopクラスタが読み取るデータの保存先として最適だ。
  • データ収集とバッチ分析用のデータストレージ - 書き込みのスループットが高く、空のデータが多くても効率的に扱えるため、HBaseはリアルタイムで大規模なデータを収集できる。連続読み込みと最適化されたスキャンのサポートを組み合わせることでHBaseは"ほぼリアルタイム"の分析を行うための強力なツールになる。
  • 頻度カウンタとデータ集計の実装 - 厳密な一貫性を維持する読み取りと書き込みはカウンタとデータの集計結果を保持するのに理想的なプラットフォームだ。Map Reduceのジョブでmaxやmin、sum、average、group-byのような複雑な集計計算を行い、結果をHBaseに送ることができる。

EMRクラスタ上でHBaseを準備するのはとても単純だ。ドキュメントによれば、ユーザはジョブフローでHBaseを使うと定義すれば、必要なものはすべて自動的にインストールされる。他のEMRインスタンスと同様にクラスタのサイズや利用するマシンのタイプを定義することができる。

当初、EMRとHBaseは相性が良くないと思われていた。EMRは普通、あるジョブを実行するために準備され、その実行が終わればEMR自体の利用も終わる。一方、HBaseは永続データのストレージとして使われる。AWSはHBaseのバックアップとリストアをサポートすることで、この2つを組み合わせている。HBaseのデータのS3へのフルバックアップと増分バックアップをサポートしている。このサポートによって、HBaseはEMRが止まってもデータを失わない。Hiveの例で紹介されているのは、他のEMRクラスタからアクセスを受け付ける専用のHBaseクラスタを構築する方法だ。また、セキュリティ強化のため、Amazon EMRはターミネーション保護を有効にしてHBaseクラスタを立ち上げる。これによって、HBaseクラスタは不作為やエラーで止まらないようになる。

HBaseと使ったことがあるなら、クラスタの構成が最も難しいことを知っているだろう。Amazonが提供するデフォルトの構成はHBaseを使い始める上では良く出来ているが、さらにAmazonは特定の用途のために構成を最適化する機能を提供する。

総じて、EMRへのHbaseの追加はとても良い結果をもたらしそうだ。EMRを拡張するための効果的でコスト効率も良い方法を提供するだろう。HBaseの学習にも使えそうだ。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT