InfoQ ホームページ Resilience に関するすべてのコンテンツ
-
AWSがマルチリージョン・フェイルオーバーをシンプル化、ARC Region Switchで
AWSはAmazon Application Recovery Controller(ARC) Region Switch、組織がRegion Switchをプラン、実践、オーケストレーションするためのフルマネージドで高可用性の機能を最近導入した。
-
AWS上のTemporalは回復力のある分散システムの構築を容易にすることを目指す
Temporal Technologies社は、durable execution(永続的な実行)に特化したオープンソースのマイクロサービスオーケストレーションプラットフォームであるTemporalを開発した企業であるが、AWSマーケットプレイスでTemporal Cloudを提供開始した。AWSを通じてサービスを提供することで、大規模アプリケーション向けの耐障害性のある分散システムの開発を簡素化することを目指している。
-
レジリエンス強化に向けたベストプラクティス:Amazon社のクライアント管理と保護サービスの構築方法
AWSのシニアプリンシパルソリューションアーキテクトであるMichael Haken氏は、Amazon社の運用・アーキテクチャ戦略を通じたクライアント管理や十分なサービス保護構築方法を、ランチで込み合う時間のレストラン対応になぞらえて説明している。「Resilience lessons from the lunch rush (ランチ対応に学ぶレジリエンス)」では、自動キャパシティ予測や負荷制限の実装といったクラウドプロバイダーによるキューの深さ管理に向けた戦略が共有されている。
-
ほとんどの企業が毎週障害を経験:The State of Resilience 2025 Report
Cockroach Labsが発表したThe State of Resilience 2025 Reportによると、ほとんどの組織で障害は日常的に発生しており、55%の企業で毎週、14%の企業で毎日障害が発生していると報告している。驚くべきことに調査参加者の100%が障害による収益損失を経験しており、過去12ヶ月間で100万米ドル以上の損失を報告した企業(8%)もあった。
-
Netflixがレジリエンシー向上のためにサービスレベルで優先順位付き負荷制御を提供開始
Netflixはシステムのレジリエンスをさらに向上させるために優先順位付き負荷制御の実装を個々のサービスレベルに拡張した。このアプローチは、障害分離のために個別クラスターを維持する代わりに、必要な場合にのみ優先度の低いリクエストを制御することでクラウド容量をより効率的に使用する。
-
Google Cloud、デュアルリージョン構成でSpannerを強化
Google Cloudは、フルマネージド分散SQLデータベースサービス「Spanner」の重要なアップデートとして、デュアルリージョン構成オプションの提供を発表した。同社はこの機能強化により、高可用性を確保しつつ、クラウドのサポートが限定的な国々にまたがるデータレジデンシー基準を遵守する企業の支援を目的としている。
-
QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング
先日開催されたQCon Londonカンファレンスにて、Trainline社のCTOが、過去5年間における同社のシステム・アーキテクチャと組織構造の進化について講演した。同社は、テクノロジー・プラットフォームの性能と信頼性を向上させることで、市場の変化と顧客からの期待の高まりに応える必要があった。
-
AWSの ゾーンオートシフト:インフラの信頼性の最適化
Amazon Route 53 Application Recovery Controllerの新機能であるゾーンオートシフトは、クラウド・プロバイダーによって潜在的な障害が特定されると、アベイラビリティ・ゾーン(AZ)からトラフィックを自動的にシフトである。AZの障害が解決されると、サービスはトラフィックをリダイレクトして戻す。
-
InfoQ & QConイベント:生成AI、セキュリティ、プラットフォームエンジニアリングなどのレベルアップを図る
ソフトウェアシステムを構築・運用するチームにとって、短期的・長期的に重要な優先事項をナビゲートする必要性は、かつてないほど差し迫っている。ソフトウェアの専門家として、私たちは読者諸氏が常に解決策を必要とする課題に直面していることを理解している。生成AI、スケーリングクラウドネイティブアーキテクチャ、パフォーマンスエンジニアリング、レジリエンス、最新の分散システム設計といったトピックは、もはや単なるバズワードではなく、実質的にすべてのソフトウェア開発ロードマップにおいて極めて重要な要素となっている。
-
SlackがAWS上のセルベースのアーキテクチャに移行し、グレーの障害を軽減
Slackは過去1年半の間に、重要なユーザー向けサービスの大半をモノリシックからセルベースのアーキテクチャに移行した。この移行は、単一のアベイラビリティ・ゾーンに影響を及ぼすネットワーク停止の影響により、ユーザーに影響を与えるサービス低下が引き金となった。新しいアーキテクチャでは、5分以内に影響を受けたアベイラビリティゾーンからすべてのトラフィックを段階的に排出できる。
-
カオスエンジニアリングサービスAzure Chaos Studioの一般提供を開始
信頼性実験サービスAzure Chaos Studioが、パブリックプレビューから2年を経て、一般利用可能になった。最新の機能としては、実験テンプレート、ダイナミックターゲット、負荷テストフォルトなどがある。
-
インシデント解決にレジリエンスはどのように役立つのか?
社会技術システムを全体的に見ることによって、インシデントのライフサイクルを通じてレジリエンスを適用することは、インシデントが学習の機会となる。レジリエンスは、人々がインシデントの解決にうまく対応できるようになり、コラボレーションを改善するのに役立つ。また、組織が計画を実現するための時間を確保できる。
-
NetflixのRENOがデバイス間で一貫したエクスペリエンスを実現する
Netflixは、多種多様なプラットフォームやデバイスにおいて一貫したユーザエクスペリエンスを実現するために���Rapid Event Notification System(RENO)を開発した。RENOは、タイトルの視聴からプロファイル情報の更新に至るまで、ユーザの実行したアクションに対して、従来の要求/応答モデルよりも迅速かつ確実に応答する。
-
Failsafe 3.2が新たなレジリエンスポリシをリリース
Java 8以降を対象とする軽量なフォールトトレランスライブラリであるFailsafeが、2021年11月、メジャーリリースとなる3.0をローンチした。さらに、先日発表されたバージョン3.2では、Rate LimiterおよびBulkheadポリシが追加されている。JavaのCompletableFutureのような、非同期コードとの統合も可能だ。
-
AWS US-EAST-1の停止: ポストモーテムと学んだ教訓
12月7日、AWS は、最も人気のあるリージョンのバージニア北部で多くのサービスに影響を与える1時間の停止を経験した。同クラウドプロバイダは、AWS の冗長性とマルチリージョンアプローチについて、コミュニティのスレッドを開始してインシデントの分析を公開した。