BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 疲労、スパム、およびバックアップの欠如でGitLab.comはダウンした

疲労、スパム、およびバックアップの欠如でGitLab.comはダウンした

ブックマーク

原文(投稿日:2017/02/03)へのリンク

GitLabの本番データの消失とダウンタイムは、スパムからエンジニアの疲労までが、壊滅的なものにどのように融合するかについての不幸な魅力的な話です。

1月31日に逸話が流れ始めたが、1つのツイートがGitLab.comで何かが間違っていることを確認しました。

「本番データを削除した」とは、ITで働く人が聞きたい言葉ではありませんが、それが起こるため、バックアップは本番サービスの運用にとって非常に重要です。不運にも、チームがサービスを復活させるために夜通しで作業していた時に、悪いニュースが悪化しました。

何が起こったのかを概説した掲載では、スパマーによる悪意のある行為でレプリケーションの問題が発生し「スニペットを作成しデータベースを叩いて不安定にする」という問題が発生しました。3時間後、データベースはもう保ち続けることができず、サイトがクラッシュしました。

夜遅くまで作業し、問題を解決しようとしているエンジニアが不幸なミスに陥り、プライマリクラスタマシン上のデータを誤って削除しました

UTC時刻 2017/01/31 午後11頃に、team-member-1が、恐らくpg_basebackupのPostgreSQLのデータディレクトリが存在するため(空であっても)ディレクトリを削除することを決定したと考えています。2回か2回の通知の後、db2.cluster.gitlab.comの代わりにdb1.cluster.gitlab.comで実行しました。

UTC時刻 2017/01/31 午後11:27にteam-member-1が、削除を終了しますが、それは遅すぎます。 約300GBのうち、約4.5GBしか残されていませんでした。

チームは復元可能なバックアップを発見するために作業をしていました。各オプションは行き詰まりで終わりました。

  • LVM(論理ボリューム管理)スナップショットは、デフォルトで24時間に1度だけ実行されます
  • 定期的なバックアップは24時間に1回しか発生せず、正常に動作しませんでした
  • データベースを実行しているAzureマシンでディスクスナップショットが実行されていませんでした
  • AWSのS3へのバックアップは空でした

偶然、エンジニアは削除の6時間前にLVMスナップショットを作成しました。このような偶然がなければ、さらに多くのデータが永遠に失われていたはずです。

イベント全体を通して、GitLabチームは完全に透過的で、Googleのドキュメントにライブアップデートを投稿し、コミュニティがフォローできるようにしました。さらに、彼らには、復元プロセスを担当するエンジニアのライブビデオストリームがありました。

データベースがダウンしてからおよそ18時間後、GitLab.comはオンラインに戻りました:

コミュニティはチームを支持したり、批判的でした。一部の人は親しみのある哀悼のメッセージを送り、GitLabの透明性を称賛しました。Hacker News のユーザ js2は言いました。 その感覚はよく知られています。「あなたが長い間sysの管理者をしていれば、その内に間違ったマシンで破壊的なコマンドを実行することになります」 他の人達は慈悲深くなかった。

GitLabの損失にもかかわらず、コミュニティはバックアップをテストするための心覚えとしてその痛みを利用していたと、Stack OverflowのエンジニアリングマネージャDavid Haneyは述べています。

GitLabはこの部分を正しく取得しており、不思議なダウンタイムやコミュニケーションがないことを偽らずに、業界での優れた実例と学習経験として伝えられています。今週、多くの障害復旧担当者は、臨時のバックアップテストを行っていることを約束します。すべてGitLabインシデントの直接的な結果です。

他の人達は、2月1日があなた達のバックアップ日をチェックするようになるべきだとからかいました。

GitLabは、支配的なプレーヤであるGitHubに代わり、オープンソースとして2011年に開始されました。GitLab.comにはホストされたバージョンと、セルフホストのコミュニティ版およびエンタープライズ版があります。GitLab.comのホストサービスだけが障害の影響を受けました。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

BT