Apache Kafka, 他とは異なるメッセージングシステム

原文(投稿日：2013/12/16)へのリンク

Apacheは、 Kafka0.8 をリリースした。これは Kafka が Apache ソフトウェア財団のトップレベルプロジェクトになって以降の最初のメジャーリリースである。Apache Kafka は publish-subscribe 型のメッセージングシステムであり、オフライン・オンライン両方のメッセージ取得に適している。これは大容量のイベントとログデータを低遅延で収集および配信する目的で、当初は LinkedIn で開発されたメッセージングシステムであった。最新リリースにはクラスター内レプリケーション機能と、多重データディレクトをリサポートする機能が含まれている。リクエスト処理も非同期型に変更され、リクエスト処理スレッドのセカンダリプールを用いて実装されている。ログファイルは世代によるローテション管理が可能で、ログレベルもJMXを通じて動的に設定可能である。パフォーマンステスト用のツールも追加された。これはパフォーマンス問題の解決や、潜在的なパフォーマンスの改善点を見つけるのを助けてくれるだろう。

Kafka は分割型で、かつレプリカ対応型のコミットログサービスである。プロデューサはメッセージを「Kafka トピックス」に対してパブリッシュ（送信）し、そして「コンシューマ」はそれらのトピックスにサブスクライブすることによってそのメッセージを消費（受信）する。Kafka クラスタにおけるサーバは、ブローカと呼ばれる。各トピックに対して、Kafka クラスターはスケーリング、並行処理、そしてフォールトトレラントに対応してパーティションを維持管理する。各々のパーティションは順序性をもったメッセージの不変シーケンスである。すなわちパーティションとは連続的に追加されるコミットログのことを指している。パーティション内のメッセージは、それぞれに対して「オフセット」と呼ばれるシーケンシャルなID番号を与えられる。

オフセットは、コンシューマによって制御される。典型的なコンシューマはリスト内の先頭のメッセージを処理するが、Kafka クラスターは一定の期間は（この期間はユーザが設定可能）パブリッシュされたメッセージ全てを保持しているので、どんな順序でメッセージを消費することも可能である。これにより、コンシューマはKafkaクラスタに大きなインパクトを与えることなく現れたり消えたりすることができ、 Hadoopクラスターのようなオフライン型のコンシューマも適用することができるので、コンシューマの構造は非常に簡素なものになる。プロデューサは、どのトピックのどのパーティションにメッセージをパブリッシュするかを選択することが可能である。コンシューマは自身をコンシューマグループ名に割り当て、各々のメッセージは登録された各コンシューマグループ内の１つのコンシューマに配信される。もし全てのコンシューマが異なるコンシューマグループに属していると、メッセージは個々のコンシューマに向かってブロードキャストされる。

Kafka は古典的なメッセージブローカのように使うこともできる。Kafka は高いスループットを持ち、パーティション機能、レプリケーション機能、フォールトレラント機能を内蔵しているので、大規模なメッセージ処理が必要なアプリケーションに適したソリューションの１つとなる。Kafka は大容量のWebサイトのアクティビティ・トラッキングにも使える。すなわち、サイト・アクティビティをパブリッシュしてリアルタイムに処理したり、または Hadoop やオフラインのデータウェアハウスシステムにロードすることができる。Kafka はログ収集システムとしても使える。ログ・ファイルを扱う代わりに、ログをメッセージのストリームとして扱うことができる。

Kafka は LinkeIn で使われており、平均すると172,000メッセージ／秒という連続的な負荷のもとで１日あたり100億個書き込まれるメッセージを処理している。これは、Kafkaのデータを扱う内部および外部のアプリケーション双方からの多重サブスクライバー機能のヘビーな使用例である。ここでは発生したメッセージ１つにつき、およそ5.5回のメッセージ消費が発生している。これは、リアルタイムコンシューマに対して配信された一日総計550億を超えるメッセージから得られた結果である。ユーザのアクティビティに関するトピックとシステム運用上のトピック両方を合わせると367個のトピックがあり、最大で一日あたり平均92GB（バッチ処理で圧縮された容量）のデータ追加が発生していた。メッセージは７日間保存され、全トピック全体での圧縮容量は平均約9.5TBである。ライブ（リアルタイムの）コンシューマに加えて、多数の巨大な Hadoop クラスタがあり、オフラインのデータロード処理によって不定期で、高スループット、かつ並列的に発生するバーストアクセスを行っている。

Kafkaについてもっと学ぶには、手始めに公式の Apache Kafka ドキュメントページにアクセスし、そしてKafka をダウンロードすること。LinkedInからの論文「LinkedInにおけるリアルタイムデータパイプラインの構築」もある。この論文では、なぜ Kafka が作られたのか、またKafkaの設計に影響を与えた要因について述べられている。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Java です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco