BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Amazon Web Servicesの安定性と9月13日の障害

Amazon Web Servicesの安定性と9月13日の障害

原文(投稿日:2013/09/20)へのリンク

9月13日の朝、Amazon Web Services (AWS)のUS East 1リージョンで障害が発生した。この障害によってこのAWS最大で最古のロケーションを使っているHeroku、Github、CMSWireなど多くの人気アプリケーションが動作しなくなった。

この最新の障害が起きる数日前、Ben Kepes氏は次のように書いていた。'AWSで障害が起きるときはいつも、西部のゾーンがサービス停止する。'氏は続けてアナリストのRené Büst氏の記事に言及している。この記事にはUS East 1リージョンを'古く安くて壊れやすい'と説明している。

Amazonは詳しい事後報告をしていないが、この障害はネットワークに関する問題が原因のようだ。2011年4月の障害もネットワーク関連だったが、2012年12月2012年10月の障害はElastic Load Balancer (ELB)とElastic Block Storage (EBS)が原因だとされている。ネットワークとEBSの障害が特に致命的になってしまうのは、このふたつの障害はアベイラビリティゾーン全体の障害を引き起こしたり、さらに上位の耐障害性を提供するサービス(ELBのような)のダウンを引き起こしてしまうからだ。

普通アプリケーションの所有者はクラウド向けの不安定さを前提とした設計ではなく、従来のアーキテクチャを使い、ひとつのリージョンの中の複数のアベイラビリティゾーンを使ったり、複数のリージョンを使ったりしていない。しかし、障害を前提とした設計をしても障害を確実に防げるとは限らない。Netflixと'simian armychaos monkeys'はクラウド向け設計のお手本のように言われる。彼らは定期的に故意に障害を発生させ動作確認をしているが、ときには(クリスマスイブの障害のような)負荷に対処するためのキャパシティが足りない場合もあり、サービス低下が原因で離れていってしまった顧客もいる。

US East 1の障害や障害を防ぐためのサービスの障害によってAmazonは競合に付け入るすきを与えてしまっている。Googleは最近Google Compute Engine向けに負荷分散サービスを提供しており、しっかりとしたシステムとして設計することを推奨している

この記事に星をつける

おすすめ度
スタイル

BT