BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 役割の割り当てとGameDayによるインシデント管理の改善

役割の割り当てとGameDayによるインシデント管理の改善

原文(投稿日:2020/03/25)へのリンク

Bitfield Consultingの主任コンサルタントであるJohn Arundel氏は、インシデントをスムーズかつ迅速に処理する方法についての考えを共有した。彼は、インシデントに対応する各チームメンバーに特定の役割を割り当てることを提案している。レッドチームとブルーチームの演習を活用して、チームが正確かつ迅速に対応できるようにすることもできる。

インシデント対応チーム内では、インシデント指揮官が最も重要な役割を果たす。彼らは、チームに指示されたインシデント対応プロセスを実行する責任がある。Arundel氏は次のように述べている:

重要なのは、担当者を1人にすることです。意思決定者が必要です。多くの場合、これがチームリーダーになりますが、時間の経過とともに、全員にその椅子の順番を与えるようにする必要があります。

Arundel氏が推奨する次の役割はコミュニケーターです。コミュニケーターの仕事は、内部と外部の両方でステータスの更新を提供することです。これには、管理者、プロジェクトマネージャ、および影響を受けるクライアントの更新が含まれる。コミュニケーターをサポートするのは、メモの作成、スクリーンショットのキャプチャ、将来の分析のためのログデータとメトリックの収集など、発生したすべてのことを文書化する責任がある記録担当者である。Arundel氏が推奨する最後の役割は研究者である。彼らの責任は、インシデント対応プロセスで出てきた質問への回答を探すことである。

これは、インシデント管理ツール Dispatchの最近のオープンソースに見られるように、Netflixがインシデントを実行する方法と密接に一致している。Dispatchは、インシデントのタイプ、優先度、または説明に基づいて、インシデント指揮官を自動的に割り当てることができる。Dispatchはまた、通知がケイデンスで発生することを可能にすることによって通信を容易にすることができ、人にそれらを送信することを覚えてもらう必要をなくす。

チームがインシデントの解決とそれにつながる問題の軽減に長けているため、準備を確実にするために他の方法が必要になる場合がある。Arundel氏が述べているように、「システムの信頼性が高いほど、実際のインシデントが発生する頻度は低くなるため、より多くのことを実践する必要がある」。ここで、彼はレッドチームとブルーチームの演習を使用することを勧めている。この概念は、軍事演習に端を発し、情報セキュリティで多用されており、1つの内部チームが「攻撃者」の役割を担っている。彼らの仕事は、ブルーチームが対応する必要のあるインシデントを作成することである。これは、システム、プロセス、およびチームの応答をテストできるように、環境内で障害をシミュレートするGameDayの概念に似ている。

AWSのクラウドアーキテクチャ戦略担当副社長であるAdrian Cockcroft氏は、この所感を共有し、「学習組織、ディザスタリカバリテスト、ゲームデー、カオスエンジニアリングツールはすべて、継続的に回復力のあるシステムの重要なコンポーネントである」と採用を信じている

Arundel氏は、最初のGameDayをホストしようとしているチームのために、いくつかのヒントを共有している。「最初のラウンドは短くシンプルにしてください。これから行うことの基本計画をまとめてください。これは、インシデント処理手順の最初のドラフトです」。チームの練習が進むにつれて、彼はさまざまな役割の割り当てを開始することを勧める。インシデントの練習の最初の試みでは、彼は演習を約1時間の長さに保つことを勧めている。最後に、彼は、チームが彼らの行動と学習について熟考する時間がとれるため、報告を翌日に移すことはより良い経験を提供すると感じている。

GremlinのカスタマエクスペリエンスディレクターであるEugene Wu氏は、同様のヒントをいくつか共有している。彼はまた、GameDayの目的とどのシナリオがテストされるかを前もって明確に特定することの重要性を付け加えている。これにより、実行側と応答側の両方で、関与する正しい個人を明確に特定できる。彼はまた、テストケースをスコープを決めて、知覚される影響と潜在的な影響範囲をより適切に定義することを提案している。最後に、実験をすぐに中止する必要がある場合に備えて、明確な出口戦略を立てることを勧める。

この記事に星をつける

おすすめ度
スタイル

BT