BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース GitHub Availability Report - インシデント調査月次報告

GitHub Availability Report - インシデント調査月次報告

原文(投稿日:2020/08/30)へのリンク

重大なインシデントの事後公開という段階を越えて、GitHubは今回、Availability Reportを導入した。互いから学び合うことにより、業界として集団的成長を遂げることの意義を強調する、GitHubのエンジニアリング担当VPのKeith Ballinger氏は、2020年5月と6月、インシデントの報告書を公開した。

今回の行動の背景として氏は、"当社は高可用性と耐障害性を備えたエンジニアリングシステムに向けて努力しています。ここ数ヶ月で実施されたアップデートが、99%以上の可用性をGitHubが備えていた時代を再び取り戻すものになることを期待しています"、と述べている。

報告書ではインシデントについて説明するだけではなく、GitHubのエンジニアリングシステムとプラクティスを前進させるために行った活動にも注目している。ステータスのページでは、リアルタイムな更新も続けられる予定である。

GitHubには、透明性への関心の高まりがあるようだ。公的なロードマップもリリースされており、GitHubが現在取り組んでいる機能やその公開予定など、詳しい情報が提供されている。

Availability Reportで説明されているように、2020年5月と6月にそれぞれ2件のインシデントが発生している。いずれの月についても、ひとつ(各月の)はMySQLインスタンスに関するものだった。RedditHacker Newsの会話では、Postgresを使った方がいいのではないか、という議論が繰り広げられた。今年2月には、予想外のデータベース負荷によって8時間以上にわたるサービス停止が複数回発生し、主データベースクラスタのmysql1にも影響を及ぼしている。

CPU不足の問題について引き続き調査することと、リカバリ時間を削減するために自動フェールオーバシステムを今後も活用することを、GitHubは伝えている。Hacker Newsの議論でも、同インシデントが予期不能なエッジケースの結果であり、運用システム以外での再現が非常に困難である(プライマリキーインデックスのオーバーフローなど)ことに対して共感が示されていた。

今回の行動を賛称して、Micro ServicesというTwitterハンドルは次のようにツイートしている — "@githubがAvailability Reportを公開したことを嬉しく思います。ソースコードを管理するために、世界中がGitHubを利用しています。ハイテク企業としてのDNAがすべて収められているのがGitHubなのです[...]。"

GitHubは2020年7月、コミットメントに従ってAvailability Reportを公開した。その中でBallinger氏は、7月13日の4.5時間にわたるサービス停止中に発生した、一連のイベントについて報告している。その週の初めには、このサービスの停止中に発生した"パフォーマンス低下"が、GitHubのIssue、Action、Page、Package、およびAPI要求について連絡されている。

この記事に星をつける

おすすめ度
スタイル

BT