pagerDutyは、同社のインシデント応答プラットフォーム向けに、多数のアップデートと拡張をリリースした。これにはAmazon DevOps Guru、AWS Control Tower、Microsoft Teamsとの新たなインテグレーションが含まれている。その他にも、障害のコード変更へのマッピング、自動トリガ、コンテントに基づいたアラートのグループ化などが改善された。
Amazon DevOps Gruは、通常の運用パターンを逸脱した動作を検出するためのマシンラーニングサービスを提供するサービスである。エラー率やレイテンシ増大、あるいはリソース制限といった逸脱が検出されると、障害の詳細に加えて、想定される修復方法を含んだアラートが生成される。これらのアラートが、Simple Notification Service(SNS)経由でPagerDutyに統合できるようになった。イベントがPagerDutyに転送されることで、それを使って適切なオンコール担当者を呼び出すことが可能になる。
AWS Control Towerとのインテグレーションにより、複数のAWSアカウントを保有する場合のインシデント対応が簡単になった。AWS Control Towerは、アカウント間の一貫性を持って管理することにより、複数のAWSアカウントに対するガバナンスとコンプライアンスを実現するサービスである。DevOps Guruと同様、通知の送信にはSNSを使用する。これらがPagerDutyに統合されることにより、規約等に不適合なリソースをアカウントで検出した場合、インシデントを起動することが可能になる。
Microsoft Teamsとの新たなインテグレーションでは、PagerDutyのインシデント管理ツールをTeamsに組み込めるようになった。特定のチームチャネルに対してインシデント通知を直接送信することや、チームチャネル内で直接インシデントを生成することが可能だ。
今回のリリースでは、変更影響のマッピング機能にも新たなインテグレーションが追加された。PagerDutyは、CI/CDパイプラインとコードリポジトリからの変更イベントを統合して、変更が原因となって発生した障害の識別に利用することができる。今回新たに、Ansible、 Buildkite、GitLab、Jenkins、Rundeck、ServiceNowとの統合が可能になった。
変更イベントは、デプロイメント、ビルド完了、コンフィギュレーション更新など、任意の数の変更を表現することができる。変更イベントのインテグレーションと合わせて、Events API v2経由でのイベント送信も可能になった。例えば、ビルド完了を表す新たな変更イベントを、以下のペイロードデータを添えて>https://events.pagerduty.com/v2/change/enqueue
に送信することができる。
{{
"routing_key": "samplekeyhere",
"payload": {
"summary": "Build Success: Increase snapshot create timeout to 30 seconds",
"timestamp": "2020-07-17T08:42:58.315+0000",
"source": "acme-build-pipeline-tool-default-i-9999",
"custom_details": {
"build_state": "passed",
"build_number": "2",
"run_time": "1236s"
}
},
"links": [
{{
"href": "https://acme.pagerduty.dev/build/2",
"text": "View more details in Acme!"
}
]
}
Automated Triggerを使えば、インシデントやアラートに対応して、特定のアクションを自動的に実行することが可能になる。この機能は、イベントルールを使ってwebhookを定義した上で、指定したエンドポイントに特別なペイロードを送信することで行われるもので、UI生成フローを通じて、あるいはRulesets APIまたは新設されたService Events Rules APIを使って実行することができる。特定の時間ブロック内でのみアクティブになるように、ルールをスケジュールすることも可能だ。この機能は、コアプロダクトとは別販売のEvent Intellitgenceアドオンパッケージに含まれている。
その他の変更点には、アラートのグループ化方法の改善がある。アラートを、ひとつないし複数のフィールドの正確な一致に基づいて、あるいは"for all"や"for any"といったロジックを使用して、グループ化できるようになった。Alert Grouping Previewは、過去45日のどのアラートがグループ化されるかを示すことで、グループ化ルールの適切な設定を支援する。過去1年間の構成履歴の変更に関する監査記録を提供する、新たな監査証跡UIも用意されている。
ここで紹介したものを含む変更の詳細については、PagerDutyのブログで確認することができる。今回の変更を詳しく知りたい向きのために、14日間のフリートライアルが用意されている。