InfoQ

InfoQ

News

マイブックマーク

ブックマークするためにログイン または 会員登録 する

ブックマークされました!

ブックマークがエラーになりました。もう一度お願いします。

Hadoop Summit 2010からAmazon Elastic MapReduceをアップデート

作者 Ron Bodkin , 翻訳者 編集部N 投稿日 2010年7月28日

セクション
運用/インフラ,
設計/アーキテクチャ
トピック
Architecture ,
クラウドコンピューティング
タグ
Hadoop ,
Amazon ,
Amazon Webサービス

原文(投稿日:2010/07/13)へのリンク

2010年の Hadoop Summit で、Amazon の Elastic MapReduce (EMR)のGeneral Manager である Peter Sirota氏の基調講演があった。EMRは、Amazonによるホスト型Hadoop製品で、webベースの管理ツールを含んでいる。氏は、彼らの顧客に共通な以下のユースケースを概略した:

  • データマイニングとビジネス・インテリジェンス、その中には、ログの処理、クリック履歴分析、類似分析、そしてターゲットを絞った広告(彼が言うところの「巨大なユースケース」)を含む。
  • 特にPig と Hive を使ったデータウェアハウス
  • 生物情報科学(ゲノム分析)
  • 金融シミュレーション(例:モンテカルロ シミュレーション)
  • ファイル処理(例:jpegのサイズ変更)
  • webインデクス

Sirota氏は、顧客はAmazon S3 ストレージ システムに数100PB(ペタバイト)保存できる,と言った。彼のアナウンスによると、今、Amazonは、 Hadoop 0.20ベースの新しいスタックをサポートし、同時に、「すぐには、消えない」Hadoop 0.18 ベースのスタックもサポートする。Amazon EMR ソフトウェアは、彼らの管理コンソールに統合され、Amazonの S3クラウド ストレージ施設とネイティブに連携している。

新スタックk
旧スタック
Hadoop 0.20 Hadoop 0.18
Pig 0.6 Pig 0.3
Hive 0.5 Hive 0.4
Cascading 1.1 Cascading 1.1

Sirota 氏が言うには、顧客は、動作中クラスタの更なる柔軟性、より良いアプリケーション開発ツール、分析論の改善そしてサポート オプションの改善を望んでいる。それから彼は、各領域での新しい機能とパートナーシップを公表した。彼が言うには、顧客が動作中のクラスタにノードを増やしたり、減らしたりできるようになる。既に動作しているジョブの実行が調整できるので,終了するまでに後6時間かかると予想されるジョブの計算能力を倍にして、3時間で終わるようにできる。彼はまた、この機能により、顧客は,クラスタのサイズを都合よく変更できるので、Hiveを使ってクエリに答えるには、少数のノードで処理し、Hadoopシステムをアップデートための、より大きなバッチ処理には、クラスタを大きくできる,そしてこの間、同じEMRクラスタは動作を続けたままである、と言った。

氏は、またEMRのスポット価格が近々決まると、予告した。EC2キャパシティの マーケット価格 をEMRに拡張したものである。これによって、追加ノード数を競売できるようになる。もし競売価格でキャパシティが入手できるなら、EMRクラスタにノードを追加し、もしマーケット価格が競売価格より高くなったらノードを減らすことができる。彼が話したのは、あるジョブを、オンデマンドのノードを4つと追加でスポットのノードを5つ加えて、行なう例だった。このオプションは、計算を終わらせる時間について、もっと柔軟性のある環境に対しては、、コスト削減をもたらす。

氏は、またEMRのサポートに、新しく silver と gold premiumレベルが加わったことを公表した。 goldサポートは、 7x24 で、緊急の問題に対しては、1時間のレスポンス時間を保証する。Amazonのパートナーとして、Karmasphere が開発ツールと監視、Datameer がビジネス ユーザ分析、そして Microstrategy がEMRサポートを含んだ、Hadoopサポート全般とHiveによるビジネスインテリジェンス ツールとの統合を提供する、と氏は語った。

Amazonは、 Hadoop Summitで Elastic MapReduceの顧客によるパネルを主催したが、Razorfish, Netflix, Spiral Genetic, そして Coldlight Solutions からのケーススタディを呼び物にした。 James Hamilton氏によってまとめられている

Amazon は、 Elastic MapReduce の改善に、引き続き相当の投資をしていることを示した。またホスト型製品で作られている大規模なアプリケーションについて、興味ある見識も、ある程度明らかにしてくれた。

特集コンテンツ一覧

GAE開発の落とし穴

Googleのクラウド環境をつかったGoogle App Engineによる開発するにあたり、初めての試みで苦悩する開発者達の経験をもとに、各開発フェーズにあわせて問題点やどう解決したかをご紹介します

イベントレポート:「Coqチュートリアル#1」

去る1月12日、定理証明支援系ツールCoqの初心者向けチュートリアルが開催さ れた(http://kokucheese.com/event/index/23667/)。今後も2月2日 (http://kokucheese.com/event/index/23744/)、2月9日、2月16日と引き続き開 催されていく予定である。本記事では、開催の様子をレポートする。

Javaの未来についてのNeal Gafter氏とのディスカッション

Choosing Options

Neal Gafter氏はOracleによるJava買収の影響に関する議論、Javaにセグメンテッドスタックやメタオブジェクトプロトコルを追加することについての主張、そしてJavaとC#との比較について話をしてくれた。

Google Dartのエッセンス:アプリケーションの構築、スナップショット、Isolate

GoogleはVMをともなう新しい言語であり、JSコンパイラでもあるDartをプレビューした。 InfoQはDartのアプリの構築に貢献する文法の裏側を探った:スナップショット、Isolate、モジュール方式

CSPベースのモデル検査ツール「Process Analysis Toolkit」

本記事ではCSPベースの「マルチドメイン・モデル検査ツール」である、PAT(Process Analysis Toolkit)について紹介する。モデル検査は、形式手法(Formal Method)という方法論を基礎とする技術であり、複雑さが増大しながらも安全性を求められる、現在のソフトウェア開発の状況に対する処方箋の1つとして注目されている手法である。

Jenkinsによる継続的インテグレーションのススメ(4) ~CloudBeesでJenkinsをサービスとして使う~

前回まで、Jenkinsの幾つかの側面に注目して解説をしてきました。シリーズ最後の今回は、Jenkinsをサービスとして使う方法を紹介します。

書籍『抽象によるソフトウェア設計-Alloyではじめる形式手法-』の紹介

Alloyは、MITにて開発された仕様記述言語であり、ツールによる自動解析を使い、インクリメンタルに形式仕様が書けることが特長である。筆者らはAlloy開発者による、Alloyを使った形式手法入門書を翻訳、今夏にオーム社より刊行した。本記事では、Alloyの簡単な概要と、翻訳書『抽象によるソフトウェア設計』(「Alloy本」)を紹介する。

Windows デバイスで開発するタッチユーザーインターフェイス

スマートフォンを中心としたマルチデバイスにおけるタッチユーザーインターフェイスへの対応は、既に必須の項目となりつつある。本記事では、Windows デバイスにおける UX のベースとなっている「メトロ」というデザイン言語を掘り下げながら、既存環境を意識しつつもどのようにタッチユーザーインターフェイス開発に取り組んでいくべきであるかについて解説していく。