InfoQ ホームページ Resilience に関するすべてのコンテンツ
-
複雑なソフトウェアプロジェクトをナビゲートし、不確実な時代をリードする - InfoQ Live 9/23
InfoQ Liveには、Red HatのGlobal Transformation Officeでシニアディレクタを務めるJohn Willis氏や、FTでオペレーションとリライアビリティを担当するテクニカルディレクタのSarah Wells氏など、世界クラスの実践家が参加して、ソフトウェアエンジニアリングリーダシップに関する価値ある洞察や実践的アドバイスを提供してくれる。
-
ソフトウェアエンジニアリングリーダーシップによるテクノロジーの提供:近々開催されるInfoQライブイベント
InfoQ Liveは、現代のソフトウェア実務家向けに設計されたインタラクティブな仮想イベントで、9月23日に新しいトピックにフォーカスして開催される。ソフトウェアエンジニアリングのリーダーシップとチームの能力強化によって、テクノロジーを提供する。Sarah Wells氏、John Willis氏(@botchagalupe)、Holly Cummins氏、Sarah Shewell氏などのワールドクラスの実務家と共に、技術プロジェクトのリード、チームデータダイナミクスの分析、不確実なタイミングにおけるチームのリードのベストプラクティスについて深く掘り下げましょう。
-
AWSのオープンソースカオスエンジニアリングライブラリ
AWSエンジニアは先頃、AWSSSMChaosRunnerと呼ばれるPrime Videoでのフォールトインジェクションのテストに使用したオープンソースのカオスエンジニアリングツールについて書いた。チームは、 EC2インスタンスで任意のコマンドを実行できるAWS Systems Managerを使用して構築されたツールを使用してレイテンシー関連の問題を軽減することができた。
-
GremlinがStatus Checksの一般提供を発表
Gremlinは先頃、Status Checksの一般提供を発表した。この新機能は自動的に健全であり、プロダクションでカオス実験を実行する準備ができているシステムを検証する。
-
カオスエンジニアリングとレジリエンスエンジニアリング - メンタルモデル、ツール、試験
先日のInfoQポッドキャストで、Jeliの共同創業者兼CEOのNora Jones氏が、カオスエンジニアリングとレジリエンスエンジニアリングの違いについて説明し、効果的なカオス試験の計画と実行、インシデントから効果的に学ぶ方法についてアドバイスした。
-
可観測性を使って迅速なリリースを実現する
迅速なフィードバックを得るためには、高い頻度で、準備が整えば即座にリリースし、自動化システムを使って変更をライブにテストすることが必要だ。正常に動作していること、警告が発生していないことの検証には、監視機能が使用できる。迅速なリリース(shipping fast)は結果的にテスト回数を削減し、問題に対するレジデンスを向上することになる。
-
障害モードとレジリエントなシステムの構築 - Adrian Cockcroft氏のQCon SFでの講演より
Adrian Cockcroft氏は先頃、障害発生時においても正常に運用できるレジリエントなシステムの構築方法について、自身の考えを公開した。氏は先日のQCon San Franciscoでも、継続的レジリエンスの考え方を備えたシステム構築において望まれる、クラウドのレジリエンスパターンについての私見を述べている。
-
どうやってうまくいっているのか?Netfixが教える、インシデントからの学び方 - QCon New YorkでのRyan Kitchens氏の講演より
QCon New Yorkで、Ryan Kitchens氏が、"How Did Things Go Right? Learning More from Incidents"と題して講演した。主なポイントは次のとおりだ。リカバリは予防に優る; インシデントは"最悪の状況"が起きた時に発生するのであるから、根本原因(root cause)というものは存在しない; ユーザの幸福が何より重要である; システムがうまくいっている理由を知ることには大きな価値がある。
-
Solo.ioがサービスメッシュハブとカオスエンジニアリングツールを発表
クラウドネイティブソフトウェア企業のSolo.ioは、業界初となるサービスメッシュハブをローンチした。このハブは、ハイブリッドおよびマルチクラウド環境へのサービスメッシュテクノロジの導入を支援するリソースとして、Istio、Linkerd、Envoy、AWS App Mesh、HashiCorp Consulといったツールを提供する。
-
Chaos Community Day v4.0要約 - レジリエンス、可観測性、ゲームデー
今年初め、第4回の"Chaos Community Day"が、ニューヨーク市のWork-Benchで開催された。当日の重要ポイントは次のようなものだ — カオスエンジニアリングのトピックは他の分野に大きく依存しており、ソフトウェアエンジニアはそこから学ぶこともできる。システムを理解し、コミュニケーションし、関連するメンタルモデルを交換することは、レジリエンス確立のために不可欠である。
-
LitmusフレームワークによるKubernetesのカオスエンジニアリング
Litmusは、ステートフルなアプリケーションを実行するKubernetes環境のための、オープンソースのカオスエンジニアリングフレームワークだ。MayaDataの開発したこのフレームワークは、テストスイートの実行、ログのキャプチャ、レポートの生成、カオステストの実行を可能にする。
-
レジリエンスの源を強化する - QCon LondonにおけるJohn Allspaw氏の講演より
QCon Londonで、John Allspaw氏が、"Amplifying Sources of Resilience: What Research Says"と題したプレゼンテーションを行った。要点は次のようなものだ — レジリエンスはシステムが持つ(has)ものではなく、システムが行う(do)ものである。組織内で"適応能力(adaptive capacity)"を創出し維持することは、レジリエンスのある行動だ。サプライズに人々がどのように対処するかについて学ぶことは、レジリエンスの源を見つけるための道である。
-
構成可能なレジリエンスポリシを備えたFailsafe 2.0がリリース
障害処理を目的とした依存度ゼロのJavaライブラリであるFailsafeが、バージョン2.0をリリースした。レジリエンスポリシ構造に加えて、独自のポリシサービスプロバイダが可能なプラグインアーキテクチャをサポートする。
-
Spring Cloud、プラガブルなサーキットブレーカインタフェースを発表
Spring Cloudのインキュベーターは、プラガブルなサーキットブレーカーインターフェースを提供するSpring Cloud Circuit Breakerと呼ばれる新しいプロジェクトを導入した。これはシステムが早期にエラーを発生し、連鎖的な失敗とシステムの過負荷を防ぐのに役立つ。
-
カオスエンジニアリングと可観測性 - Russ Miles氏に聞く
O'Reillyの新しいレポート "Chaos Engineering Observability: Bringing Chaos Experiments into System Observability"では,筆者のRuss Miles氏が,可観測性とカオスエンジニアリングは"密接に関連している"と考える理由が論じられている。エンジニアがカオス試験を実施する場合には,試験の対象とする下位システムに関して多くの問いかけをする必要が生じるはずだ,と氏は主張する。