BT

Amazon Web Servicesの安定性と9月13日の障害

| 作者: Chris Swan フォローする 491 人のフォロワー , 翻訳者 徳武 聡 フォローする 0 人のフォロワー 投稿日 2013年9月30日. 推定読書時間: 2 分 |

原文(投稿日:2013/09/20)へのリンク

9月13日の朝、Amazon Web Services (AWS)のUS East 1リージョンで障害が発生した。この障害によってこのAWS最大で最古のロケーションを使っているHeroku、Github、CMSWireなど多くの人気アプリケーションが動作しなくなった。

この最新の障害が起きる数日前、Ben Kepes氏は次のように書いていた。'AWSで障害が起きるときはいつも、西部のゾーンがサービス停止する。'氏は続けてアナリストのRené Büst氏の記事に言及している。この記事にはUS East 1リージョンを'古く安くて壊れやすい'と説明している。

Amazonは詳しい事後報告をしていないが、この障害はネットワークに関する問題が原因のようだ。2011年4月の障害もネットワーク関連だったが、2012年12月2012年10月の障害はElastic Load Balancer (ELB)とElastic Block Storage (EBS)が原因だとされている。ネットワークとEBSの障害が特に致命的になってしまうのは、このふたつの障害はアベイラビリティゾーン全体の障害を引き起こしたり、さらに上位の耐障害性を提供するサービス(ELBのような)のダウンを引き起こしてしまうからだ。

普通アプリケーションの所有者はクラウド向けの不安定さを前提とした設計ではなく、従来のアーキテクチャを使い、ひとつのリージョンの中の複数のアベイラビリティゾーンを使ったり、複数のリージョンを使ったりしていない。しかし、障害を前提とした設計をしても障害を確実に防げるとは限らない。Netflixと'simian armychaos monkeys'はクラウド向け設計のお手本のように言われる。彼らは定期的に故意に障害を発生させ動作確認をしているが、ときには(クリスマスイブの障害のような)負荷に対処するためのキャパシティが足りない場合もあり、サービス低下が原因で離れていってしまった顧客もいる。

US East 1の障害や障害を防ぐためのサービスの障害によってAmazonは競合に付け入るすきを与えてしまっている。Googleは最近Google Compute Engine向けに負荷分散サービスを提供しており、しっかりとしたシステムとして設計することを推奨している

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT