12月7日、AWS は、最も人気のあるリージョンのバージニア北部で多くのサービスに影響を与える1時間の停止を経験した。同クラウドプロバイダは、AWS の冗長性とマルチリージョンアプローチについて、コミュニティのスレッドを開始してインシデントの分析を公開した。
停止は午前10時30分 (ET) に始まった。多くの顧客 (Netflix、Disney+、Delta航空など) に影響を与え、Amazon の小売事業、Alexa 音声サービス、Ring セキュリティカメラを通じてカスケードした。復旧時間はサービスによって異なり、このリージョンではその日の遅くまで完全に機能しなかった。このインシデントは長年のバージニア北部リージョンで最も重大であり、2017年の S3 の混乱 よりも長く続いた。
影響を受けたサービスには、CloudWatch、Gateway API、Secure Token Service (STS) と Fargate、ECS、EKS などのコンテナサービスが含まれる。すでに実行中のインスタンスとコンテナは影響を受けなかったが、API リクエストの失敗により、顧客は変更したり、新しく起動することができなかった。同クラウドプロバイダは、インシデントが「多くの顧客に重大な影響を与えた」ことを認め、次のように説明している:
メインの AWS ネットワークでホストされていた AWS サービスの1つのキャパシティをスケーリングする自動アクティビティが内部ネットワーク内の多数のクライアントの予期しない動作を引き起こしました。これにより、接続アクティビティが大幅に増加し、内部ネットワークとメインの AWS ネットワーク間のネットワークデバイスを圧倒させ、これらのネットワーク間の通信が遅延しました。これらの遅延はネットワーク間で通信するサービスの遅延とエラーが増加させ、接続の試行と再試行をさらに増加させました。これにより、2つのネットワークを接続するデバイスで永続的な輻輳とパフォーマンスの問題が発生しました。
停止している間、Service Health Dashboard はアップデートされず、ユーザは何時間もサポートケースを作成できず、リージョンの実際のステータスとアップデートの欠如について多くの冗談を言っていた。AWS は、モニタリングシステムの障害でそれを正当化し、ステータスページの刷新を約束する:
監視システムの障害により、この出来事の理解が遅れ、ネットワークの輻輳により、Service Health Dashboard ツールがスタンバイリージョンに適切にフェイルオーバーできなくなりました。(...) 来年初めに、Service Health Dashboard の新しいバージョンをリリースする予定です。
このインシデントは、将来のクラウド停止の影響を最小限にすることを目的とする冗長性、マルチリージョン、およびマルチクラウドアプローチに関する多くのスレッドと記事の引き金になった。Duckbill Group のクラウドエコノミストである Corey Quinn 氏の「Lessons in Trust From us-east-1」では、AWS のさまざまなサービスの相互依存性について疑問を呈し、そして警告している:
AWS の us-east-1 リージョンの機能を AWS でマルチリージョンフェイルオーバー戦略に設定することはできません。このリージョンで重大なイベントが発生したときに、コントロールプレーン全体の障害以外のものを信頼するには、このリージョンをシングルトラックで通過するものが多すぎるようです。この明確な例は、Route 53 の障害です。
ウィークリーのサーバレスニュースレター、Off-by-none の著者である Jeremy Daly 氏は、開発者は過剰反応すべきではないと考えている:
私はそれについて何をすればよいですか? おそらく何もありません (...) 単純に落とせないシステムがいくつかあります。これらのシステムは、特に人命のリスクがある場合は、冗長性に投資する必要があるのは最も確かでしょう。クラウドのワークロードを構築している他の 99.99% では、数時間の停止が発生する可能性があり、場合によっては大幅な収益のロスにつながる可能性がありますが、これらの停止 (数年でもほとんど発生しない) を軽減するソリューションの実装と保守のコストと比較すると、焼石に水です。もっと重要なことにフォーカスすべきです。
Stedi の創設者で CEO である Zack Kanter 氏は、人気のある Twitter スレッドを開始し尋ねた:
もし、AWS が今日再構築されたとしたら、さまざまな設計上の決定によって、どのような高レベルの付随的な複雑さを排除したいと思いますか?
回答によると、ユーザの主な懸念は、同じ国の複数のリージョンでの支出制限、より良い無料利用枠、データ主権だ。
12月15日、同クラウドプロバイダは、米国の2つのリージョン、us-west-1 と us-west-2 で、より短時間の接続の問題に直面した。