BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース インシデント解決にレジリエンスはどのように役立つのか?

インシデント解決にレジリエンスはどのように役立つのか?

社会技術システムを全体的に見ることによって、インシデントのライフサイクルを通じてレジリエンスを適用することは、インシデントが学習の機会となる。レジリエンスは、人々がインシデントの解決にうまく対応できるようになり、コラボレーションを改善するのに役立つ。また、組織が計画を実現するための時間を確保できる。

Vanessa Huerta Granda氏は、QCon New York 2023で、レジリエンスの文化について講演を行った。

多くの場合、組織はインシデントの影響を解決した後、実際にはあまり何もしていないとHuerta Granda氏は主張した。組織によっては、インシデント後の活動、伝統的な根本原因分析や「なぜなぜ分析」を試みたり、チームによってはポストモーテムを行ったりすることもある。いずれにせよ、根本的な原因を突き止め、二度と起こらないようにすることに重点を置くのが普通だと彼女は言う。

Huerta Granda氏は、人々がより深く学ぶための活動を行わない理由を挙げた。

  • レジリエンスを文化にうまく取り入れるために必要なスキルは、エンジニアリングスキルではなく、コミュニケーションスキル、分析、情報を渡して人々を説得すること、対話をしてもらうことである。
  • このスキルを身につけるには時間とトレーニングが必要だが、組織はたいていエンジニアにその時間を与えない。
  • 多くの組織は学習を経ずに、インシデント対応で終わってしまう。
  • 社会技術的なシステムに注目せず、すべてのインシデントは根本的な原因があるから起こるものという、昔ながらのパターンにとらわれている組織もある。

社会技術システムを全体的に見ることで、インシデントのライフサイクルを通じてレジリエンスを適用することができると、Huerta Granda氏は述べた。彼女は、インシデントは決して「バグをリリースし、バグを修正し、すべてが元通りになる」ものではないことを理解しなければならない、と述べる。

「そうではなく、インシデントがそのように起こるに至った状況を考え抜くこと。人々は何が起こっていると思ったのか?どんなツールを使っていたのか?どのように協力し、コミュニケーションをとっていたのか?そうすることで、私たちのシステムの全体像が見えてきて、将来的に役立つのです」とHuerta Granda氏は言う。

レジリエンスは、人々がインシデントを解決するのに役立ち、何が起こっているかを理解するのに役立ち、より効果的に協力し合う方法に役立つとHuerta Granda氏は述べた。

人々がインシデントのサイクルにハマらないようになれば、組織はロードマップに描かれた計画を実現するための時間をつくれる、と彼女は言う。

レジリエンスの文化を醸成するためには、人々が互いに話し合う時間を与え、技術的な根本原因を超えて、インシデントの経験にまつわる要因に目を向ける好奇心を持つ必要がある、とHuerta Granda氏は締めくくった。

InfoQは、インシデントから学ぶことについて、Huerta Granda氏にインタビューした。

InfoQ: インシデントのコストはどの程度になるのか?

Huerta Granda氏 : インシデントが発生すると、顧客の信頼を失い、業界によってはインシデントが原因で企業がライセンスを失うこともある。インシデントのサイクルに常にハマっていると、クリエイティブなエンジニアになる余力がなくなってしまう。

InfoQ: アクションアイテムを作成するためのヒントがあれば教えてほしい。

Huerta Granda氏:いくつかのヒントがある。

  • 実際に行動する人たちが決める必要がある。
  • マネジメントは、それを完了させるための時間を与えることにOKを出すべきである。
  • アクションアイテムは目立った変化を起こすものでなければならない。
  • 必ずオーナーと期日を設定する(そうすれば、完成させることができるとわかる)。
  • 逃げ道を与えてもよい。

人に逃げ道を与えるということは、アクションアイテムが定石であってはならないことを意味する。アイテムのオーナーが修正を試みて、うまくいかない、あるいは完了までに時間がかかるとわかったら、それは最善の行動ではないと判断できる。その場合は、作業内容を説明した上で、アクションアイテムをクローズさせる。

InfoQ: インシデント横断的なインサイトを得るにはどうすればいいか?

Huerta Granda氏:まず、それぞれのインシデントのインサイトに注目してほしい。次にインシデントが蓄積されたら、インシデント間の共通点に目を向ける。 解決に時間がかかるインシデントは、特定のテクノロジーに関連しているのか? 利用可能なオブザーバビリティツールについて知っているか? 共有したいデータが見つかったら、提供するデータに常にコンテキストを加えるようにする。そうすると「データ」が「インサイト」に変わるだろう。

作者について

この記事に星をつける

おすすめ度
スタイル

BT