InfoQ ホームページ Resilience に関するすべてのコンテンツ
-
AWS US-EAST-1の停止: ポストモーテムと学んだ教訓
12月7日、AWS は、最も人気のあるリージョンのバージニア北部で多くのサービスに影響を与える1時間の停止を経験した。同クラウドプロバイダは、AWS の冗長性とマルチリージョンアプローチについて、コミュニティのスレッドを開始してインシデントの分析を公開した。
-
AmazonがRPOとRTOを監視・改善するためのAWS Resilience Hubを発表
Amazonは最近、AWS Resilience Hubが利用できるようになったことを発表した。これは、顧客がクラウド上のアプリケーションの復元力の定義、測定、管理をサポートするために設計されたサービスである。
-
Apache Flink、Kafka、およびPinotを使用したUberでのリアルタイムの正確に1回のイベント処理
UberEats に広告を導入した後、Uber はいくつかの困難に直面した。生成したイベントは、迅速、確実、正確に処理する必要があった。これらの要件は、広告イベントのストリームを正確に1回のセマンティクスでリアルタイムに処理する、Apache Flink、Kafka、および Pinot をベースにしたシステムによって満たされた。このアーキテクチャを説明する記事が最近 Uber Engineering ブログに公開された。
-
MicrosoftがAzure Chaos Studioをパブリックプレビューで発表
最近開催されたIgniteで、MicrosoftはAzure Chaos Studioのパブリックプレビューを発表した。これは、フルマネージドの実験サービスだ。カオスエンジニアリングをコントロールして障害を追跡、測定、軽減されるように顧客をサポートし、クラウドアプリケーションの復元力を向上させることが目的だ。
-
Litmus 2.0リリースでマルチテナンシー、カオスワークフロー、GitOps、可観測性を提供
先月、Litmus 2.0が一般向けとしてリリースされた。カオスエンジニアリングを簡素化することを目的としており、カオスセンター、カオスワークフロー、カオス用GitOps、マルチテナンシー、可観測性、プライベートカオスハブなどの新機能を追加している。InfoQは、ChaosNativeのCEOであり、Litmusエンジニアリングプラットフォームの共同作成者および保守担当者のUmasankar Mukkara氏にインタビューした。
-
レジリエントな企業がより多くのインシデントを求める理由
John Egan氏によると、インシデント管理プロセスは単なるインシデントへの対応だけではない。根本原因を報告して、社内プロセスと業界全体のプラクティスを更新するサイクルなのだ。インシデント報告のバリアを低くし、非難を伴わない事後分析を使った効果的なインシデントレビュー会議を実施して、分析結果をすべての人に公開すべきだ、というのが氏のアドバイスである。
-
カオス試験プラットフォームGremlinに対象サ���ビスの自動ディスカバリ機能が追加
カオスエンジニアリングプラットフォームのGremlinが先頃、自動サービスディスカバリ(automated service discovery)を発表した。ダイナミックな環境内で動作しているサービスを自動的に検出する新機能だ。検出されたサービスはカオス試験のターゲットとして有効になる。APIキーを対象としたロールベースのアクセス制御も追加された。
-
Cheryl Hung氏の2021年クラウドネイティブとDevOpsのトレンド
先頃のDEVOPS Conferenceのキーノートで、Cloud Native Computing Foundation (CNCF) のエコシステム担当副社長であるCheryl Hung氏は、来年のクラウドネイティブトップ10予想を共有した。これには、クロスクラウドサポートの改善、GitOpsとカオスエンジニアリングプラクティスの成長、およびFinOpsの採用の増加が含まれる。
-
Gremlinがカオスエンジニアリングで“うるさい隣人”問題に対応
Gremlimは、'Noisy Neighbors(うるさい隣人)'を隔離して、サービスのスケーラビリティをテストすることに関心のあるDevOpsエンジニアを対象に、同社のChaos Engineeringプラットフォームの改良版をリリースした。Kubernetesでは、クラスタを共有する複数のアプリケーションがリソースを奪い合ってパフォーマンスが低下するという、´Noisy Neighbors'の問題が発生する。
-
Gremlinが"State of Chaos Engineering 2021"レポートをリリース
Gremlinは、コミュニティの調査と独自のプロダクトデータに基いたカオスエンジニアリングに関するレポートを、"State of Chaos Engineering 2021"としてリリースした。おもな調査結果のひとつは、カオスエンジニアリング試験の実施と可用性向上の間に正の相関関係があることだ。
-
3月16日のInfoQ Live: ソフトウェアデリバリーの不確実性を減らす方法を探る
InfoQ Liveはソフトウェアエンジニアとアーキテクトのための1日のバーチャルイベントであり、3月16日に新しいエディションで帰ってくる。今回は、ソフトウェア開発サイクルの不確実性を減らす方法に焦点を当てている。
-
UberがマルチリージョンでのKafkaの災害復旧を実装
先頃のブログ投稿で、Uberのエンジニアは、レプリケーションプラットフォームを使用して、マルチリージョンのKafka展開で大規模な災害復旧を実装する方法を強調している。UberにはApache Kafkaの大規模な展開があり、1日に数兆のメッセージと数ペタバイトのデータを処理する。Uberのエンジニアは、自然災害や人為的災害に直面した時のビジネスの回復力と継続性を提供した。
-
AWSがカオスエンジニアリング・アズ・ア・サービスの提供を発表
AWSは、カオスエンジニアリング・アズ・ア・サービスの次のリリースを発表した。フォールトインジェクションサービス(FIS)は、多数のAWSサービスにわたってフルマネージドのカオス実験を提供する。このサービスには、一般的な実世界のイベントを模倣した中断を生成するビルド済みのテンプレートが含まれている。APIを介してCIパイプラインに統合できる。
-
役割の割り当てとGameDayによるインシデント管理の改善
Bitfield Consultingの主任コンサルタントであるJohn Arundel氏は、インシデントをスムーズかつ迅速に処理する方法についての考えを共有した。彼は、インシデントに対応する各チームメンバーに特定の役割を割り当てることを提案している。レッドチームとブルーチームの演習を活用して、チームが正確かつ迅速に対応できるようにすることもできる。
-
Kubernetesのカオスエンジニアリング: 一般利用可能になった Chaos Mesh v1.0
Chaos Meshチームは、2020年7月にCNCFサンドボックスプロジェクトとして承認された後、Chaos Mesh 1.0の一般提供(GA)を発表した。Chaos Meshは、Kubernetesアプリケーションでカオスエンジニアリング実験を実行するためのツールである。