Flickrは高可用性RedisにSentinelを選択した

原文(投稿日：2014/08/13)へのリンク

Flickrは先日、一貫性に関する懸念にもかかわらず、彼らのオフラインでタスク処理するサブシステムで自動化されたRedisフェールオーバーを提供するためにSentinelを展開していることを発表した。

昨年、Factualエンジニアで分散システムエキスパートのKyle Kingsbury氏は、彼のJespenシリーズの一部としてRedisの一貫性の特性を調査した。そこで彼は、Redisは書き込みの56%を投げて私たちに成功したと語り、RedisとSentinelsを使ったシナリオを構築できることを示した。Kingsbury氏は、これはSentinelシステムにあった2つの問題の結果であることを指摘した。

ひとつめは、すべてのクライアントでパーティションの先頭への書き込みが失われた… ネットワークにドロップされた、それらはすべてn1に書き込まれ、後に降格されたため、そのウィンドウ内の書き込みは破棄された。2つめの問題は、split-brainによるものだった: n1とn5の両方は、パーティションが修復されるまでプライマリーアップであった。彼らがどのノードと話していたかによって、いくつかのクライアント書き込みは生き残り、その他の書き込みは失われる。

RedisのクリエーターであるSalvatore Sanfilippo氏は、問題を認識したが、データロスを最小化することはSentinel設計のゴールではなかったと言う。

明確にしたいのは、批判はよいものであり、Sentinelは最小のデータロスで抑えた複雑なネット分割を処理するのによくない方法であることを示している。これはゴールではなく、99%のケースではユーザーが自作スクリプトでフェールオーバーを処理する場合、Sentineが実現した障害検出とフェールオーバープロセスの処理よりもはるかに悪い状況になる。

Flickrはこの問題を認識しながらも、最初に決めたオフラインタスクを処理するサブシステムのアグレッシブなSLAを目標にしてSentinelへの移行を始めた。彼らは既存の手動フェールオーバー処理が目標の99.995%の稼働時間を実現できていないことに注目して、他のソリューションと比較しつつSentinelに落ち着いた。

Sentinelシステムとその構成の両方をテストした後、彼らは稼働率目標を達成できるように、4-6秒の自動フェールオーバーを提供できるように設計することができるようになった。テストの間、彼らはまたKingsbury氏の調査結果を複製することができた。しかしながら、FlickrエンジニアのRichard Thorn氏とShawn Cook氏は、私たちの本番環境では、split-brainの影響はなかったが、私たちはリスクよりも利益が大幅に上回ると確信している。と説明する。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはデータベースです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

Kubescape 4.0、Kubernetesに実行時セキュリティとAIエージェントスキャン機能を追加

Amazon CloudWatch、OpenTelemetryメトリクス対応をプレビュー公開

Googleがノードプール自動作成速度を向上、GKEクラスタ向け

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027