InfoQ

News

Amazon S3の機能停止:SLAが信頼をもたらすか?

作者 Michael Bushe , 翻訳者 編集部 投稿日 2008年3月4日 午前6時32分

コミュニティ
Architecture
トピック
SaaS,
クラスタリング&キャッシング
タグ
Salesforce.com
Amazon Web ServicesによるSimple Storage Service (S3)(source)は、クラウドベースのストレージプラットフォームで、Twitter(サイト・英語)、G.ho.st(サイト・英語)および37signalsのBasecamp(source)などを含む多く の有名Webサイトで使用されているが、先日大規模な機能停止が発生した。それはS3の3つの地理的サイトの1つで起こり、2時間以上に渡り停止した。

AWSのデベロッパによる委員会(source)において、その発生がAWSが信頼できるものであったかどうかに一石を投じた。
S3サービスはすばらしいが、単にこういうことが起こっただけでそうではないと思われてしまう。長い期間低迷が続いているさなかに、特にこれは大問題である。
S3の長期間の信頼性についての記録を迅速に指摘したユーザもいた。
およそ1年前にサービスに参加してから、初めて経験した機能の停止だった。
InfoQは長期にわたりS3を使用しているユーザにインタビューをし、そこにはS3の信頼性に関した一貫した話があった。過去に2分未満の一時的な中断が1、2度(ブログ・英語)あっただけである。

Amazonは、「月間99.9%の実行可能時間」というService Level AgreementをS3(source)で適用している。Amazonは、10月にその適用を開始した。11のAmazonのWebサービス(source)のうち、Amazonが現在SLAを提供している のは唯一S3だけである。クラウドベースのストレージソリューションではAmazonのSLAはどんな意味があるのか?

おそらくたいして意味はない。S3 SLAは、5分のインターバルが数回あり1ケ月平均99.9%の可用性を約束している。最悪の場合、SLAは1ケ月で40分間使用不可能になる。ほとんど の人にとって30分間使用できなくてもたいして問題にならないけれども、これは金融アプリケーションや医療機器で期待される信頼性とは違う重要性の注文で ある。

SLAでは不十分である場合、収益や評判が危険にさらされていることを考慮すれば、多くのS3ユーザには不適切かもしれないサービスの信頼を提供してい る。99.9%のサービスレベルの協定が満たされない場合、Amazonは使用料の10%を翌月口座へ入金する。可用性が99.0%を下回った場合、 Amazonは使用料の25% を口座へ入金する。結果1ケ月7時間可用性が実現できなかった場合である。このことを正しい角度で見直すために、500GBのデータを格納するユーザを検 討する。500GBのデータをS3へ移行し、1ケ月で10回完全に目的を果たすのにかかる費用は、およそ$1000である。機能停止が5時間あった場合、 ユーザへの返金は$100であり、ユーザが先週の機能停止を期待してしまうのに十分な金額であろう。このシナリオで、7時間の停止から完全な機能停止にか かるひと月の金額は$250である。

クラウドコンピューターリソースを使用する必要のあるほとんどのアプリケーションにとって、SLAは保証をしない場合がある。他の特定のアプリケーション に対するS3の妥当性を決定する際に、Amazonの信頼性の評判および追跡記録はSLAよりもほかのほとんどにとって重要な傾向である。

SaaSコンピューターにおける最高の規格であると広く考えられているsalesforce.comが提供しないのは、おそらくSLA全般の沈滞した特質 が理由であるかもしれない。Salesforceがサービスにおける信頼を築き上げているのはtrust.salesforce.com のWebサイトであり、サービスの健全性に関するリアルタイムの情報を提供している。Salesforce.comの健全性が監視されたのは、同様の機能 停止(source)に対する反応の結果であった。サービスプロバイダへの満足度を見る別の有意義な方法は、その事態の対処方法である。その理由は、最高の状況下で問題が 発生するからである。たとえば、Technoratiはごちゃごちゃになったブログの対処方法が良かったので賞賛を得た(ブログ・英語)

Amazonはこういった教訓を得ているかもしれない。その機能停止によって、多くの顧客に有能であるAmazonの技術的なサービスの有効性とシステムの健全性についてのコミュニケーション間の対比が露わになった。それが大きな痛手となった。

InfoQはAmazonのスポークスパーソンにインタビューし、機能停止について話を伺った。Amazonは、 問題を把握しているようで早い段階で是正措置を取っていた。
ロケーションの1つで、 複数のユーザからの認証済み要求の上昇値が現れ始めてきた。全体の要求量を注意深くモニターし、それらが通常の範囲内であることを確認する一方、認証済み 要求の割合についてはモニターしてこなかった。重要なことは、これらの暗号要求は他のどんなタイプの要求よりも、呼び出しにつきさらに多くのリソースを消 費するということである。少しの間で、認証済み呼び出しを大幅に増加するユーザが出てきた。追加容量の導入を完了する前に、これらの最後が認証サービスの 最大容量を超えさせてしまった。認証リクエストの処理に加えて、認証サービスはAmazon S3が処理するすべての要求に対してアカウント検証を実施する。これによって、Amazon S3がそのロケーションで要求を処理することができなくなった。
その一方で、機能停止の間通信ができないことからイライラしたユーザもいた。Viewbook.comのオーナーであるRien Swagerman氏が、InfoQに以下のとおり語った。
非常に面白いことは・・・このような事態が発生した場合、Amazonはその状況に関する情報をほとんど提供していない。公開討論の場で徹底的にやりあって、情報を得る必要がある。しかもこの討論の場は(停止中)1時間、記事掲載がダウンしていた。
Amazonのスポークスパーソンが語ったところでは、Amazon.comおよびデベロッパの委員会がこの停止による影響を受けたということである。 Amazonは自社製品を使用しており、それはたいてい良い兆候であるが、クラウドコンピューターが 計算法を変えているかもしれない。

通信レベルに関する顧客からのクレームに対応して、Amazonはサービスレベルのダッシュボードを「間もなく」リリースすることを予定している。クラウドコンピューターおよびSaaSのテクノロジーは未だ開発中であるが、S3の停止は明らかに産みの苦しみである。FocusFriends.netのIvo Beckers氏は以下のように語っている。
これほどの質と料金でさまざまなサービスを提供しているベンダーは、他にいない。事実こうしたことが発生して、満足に思っている。さらに良質なサービスを提供するために業界がしのぎを削ることになるであろう。
急成長しているクラウドコンピューター市場において、特にAmazonは腕の見せどころとなる。年頭にEMCがEMC Fortress(source)を発売したが、それはMozyの買収を利用することで、当初はバックアップに狙いを定めたSaaSストレージプラットフォームである。今 週になって EMCがMicrosoft前幹部のPaul Maritz氏(source)を新たなCloud Infrastructure and Storage Divisionのリーダーとして迎え入れたと発表した。EMCは、Amazonよりもハイエンドなマーケットセグメントに絞り込んで、価格や信頼性のス ケールでより充実したオプションを提供しそうである。

価格を抑えつつ、可用性を改善するために設計者ができることは何か?Amazonのデベロッパの委員会の多くの人が、自分たちのWebサイトの信頼性が完 全にS3に依存しているという事実に嘆いていた。 キャッシュコピーはローカルで、レコードのストレージとしてS3を使用していたユーザは、それほど影響を受けなかった。InfoQはS3をビデオのバック エンドストアとして使用しており、EC2インスタンスでローカルキャッシュを保持するため、機能停止の影響を受けていない。可用性の改善の他に、S3から のデータ転送量を減らすことでローカルキャッシュはコストを削減することができる。

S3を使用しているだろうか?可用性を確実なものにするために何ができるか?

原文はこちらです:http://www.infoq.com/news/2008/02/s3-outage-trust-slas
ブックマーク
digg+,
reddit+,
del.icio.us+,
dzone+,
slashdot+
Hatena

特集コンテンツ一覧

Flex 4の新機能トップ10

今週(2009年6月1日)AdobeはFlex 4の正式な初ベータ版をリリースしました。Flex 4はGumbo(オクラ)というコードネームで開発されています。今回のリリースには大きな変更が多数含まれています。このRIAフレームワークの最新バージョンにおいて変更された事柄についての概要を以下のリストで見ていきましょう。

Domain Driven Design(ドメイン駆動設計) Quickly 日本語版

ビジネス領域の深い理解を反映したドメインモデルを設計するための、ヴィジョンとアプローチです。この本は、Eric Evans氏の「Domain Driven Design」の主要点を短く読みやすく要約しました。

JavaプログラマがFlexとBlazeDSを学んだ方がいい13の理由

この記事ではJavaプログラマがなぜFlexとBlazeDSを学ぶべきなのかについて13の理由を述べています。なぜ高度にインタラクティブなWeb サイトからJavaで開発されたバックエンドをもつエンタープライズ・アプリケーションまでを含む、リッチ・インターネット・アプリケーション(RIA)の開発にFlexとBlazeDSの組み合わせが最適な選択肢となるのかについて述べています。

仮想パネル: バックログは重要な成果物とプラクティスか、それとも無駄か?

Mary Poppendieck氏、Ron Jeffries氏、Jeff Patton氏、David West氏、Steve Freeman氏、Jason Yip氏が、バックログに関する彼らの意見とアジャイルチームを成功させるために必要な事を語った。

Perf4Jを使ったパフォーマンス解析とモニタリング

この記事ではAlex Devine氏が、Java開発者がPerf4Jをどのように利用できるかと、タイミングステートメントにコードを追加し、ロギング、結果の解析とモニタリングを行うオープンソースツールセットの説明をします。

複雑な外部DSLを開発する

本稿では、Vaughn Vernon氏が内部DSLと外部DSLの違いを説明し、複雑な外部DSLを開発する際のステップを示します。

J2EEアプリケーションにおけるAOPを使ったフェッチ戦略の実装

この記事では低レベルのサービス・レイヤやリポジトリ・レイヤを肥大化させることなく、フェッチング・ストラテジによってモジュール化された方法でバックエンドにあるシステムからデータを取得する処理を最適化する方法について説明します。

実証済みのアイデアの融合: S#arp Architectureの裏側

この記事では、Web開発における多数の成熟傾向と、クライアントに価値を提供することに対するそれらのメリット、およびS#arp Architecture(最善の手法と技術を活用しようとするASP.NET MVCをベースとしたフレームワーク)内でのそれらの使用について取り上げます。