Apache Kafka, 他とは異なるメッセージングシステム

原文(投稿日：2013/12/16)へのリンク

Apacheは、 Kafka0.8 をリリースした。これは Kafka が Apache ソフトウェア財団のトップレベルプロジェクトになって以降の最初のメジャーリリースである。Apache Kafka は publish-subscribe 型のメッセージングシステムであり、オフライン・オンライン両方のメッセージ取得に適している。これは大容量のイベントとログデータを低遅延で収集および配信する目的で、当初は LinkedIn で開発されたメッセージングシステムであった。最新リリースにはクラスター内レプリケーション機能と、多重データディレクトをリサポートする機能が含まれている。リクエスト処理も非同期型に変更され、リクエスト処理スレッドのセカンダリプールを用いて実装されている。ログファイルは世代によるローテション管理が可能で、ログレベルもJMXを通じて動的に設定可能である。パフォーマンステスト用のツールも追加された。これはパフォーマンス問題の解決や、潜在的なパフォーマンスの改善点を見つけるのを助けてくれるだろう。

Kafka は分割型で、かつレプリカ対応型のコミットログサービスである。プロデューサはメッセージを「Kafka トピックス」に対してパブリッシュ（送信）し、そして「コンシューマ」はそれらのトピックスにサブスクライブすることによってそのメッセージを消費（受信）する。Kafka クラスタにおけるサーバは、ブローカと呼ばれる。各トピックに対して、Kafka クラスターはスケーリング、並行処理、そしてフォールトトレラントに対応してパーティションを維持管理する。各々のパーティションは順序性をもったメッセージの不変シーケンスである。すなわちパーティションとは連続的に追加されるコミットログのことを指している。パーティション内のメッセージは、それぞれに対して「オフセット」と呼ばれるシーケンシャルなID番号を与えられる。

オフセットは、コンシューマによって制御される。典型的なコンシューマはリスト内の先頭のメッセージを処理するが、Kafka クラスターは一定の期間は（この期間はユーザが設定可能）パブリッシュされたメッセージ全てを保持しているので、どんな順序でメッセージを消費することも可能である。これにより、コンシューマはKafkaクラスタに大きなインパクトを与えることなく現れたり消えたりすることができ、 Hadoopクラスターのようなオフライン型のコンシューマも適用することができるので、コンシューマの構造は非常に簡素なものになる。プロデューサは、どのトピックのどのパーティションにメッセージをパブリッシュするかを選択することが可能である。コンシューマは自身をコンシューマグループ名に割り当て、各々のメッセージは登録された各コンシューマグループ内の１つのコンシューマに配信される。もし全てのコンシューマが異なるコンシューマグループに属していると、メッセージは個々のコンシューマに向かってブロードキャストされる。

Kafka は古典的なメッセージブローカのように使うこともできる。Kafka は高いスループットを持ち、パーティション機能、レプリケーション機能、フォールトレラント機能を内蔵しているので、大規模なメッセージ処理が必要なアプリケーションに適したソリューションの１つとなる。Kafka は大容量のWebサイトのアクティビティ・トラッキングにも使える。すなわち、サイト・アクティビティをパブリッシュしてリアルタイムに処理したり、または Hadoop やオフラインのデータウェアハウスシステムにロードすることができる。Kafka はログ収集システムとしても使える。ログ・ファイルを扱う代わりに、ログをメッセージのストリームとして扱うことができる。

Kafka は LinkeIn で使われており、平均すると172,000メッセージ／秒という連続的な負荷のもとで１日あたり100億個書き込まれるメッセージを処理している。これは、Kafkaのデータを扱う内部および外部のアプリケーション双方からの多重サブスクライバー機能のヘビーな使用例である。ここでは発生したメッセージ１つにつき、およそ5.5回のメッセージ消費が発生している。これは、リアルタイムコンシューマに対して配信された一日総計550億を超えるメッセージから得られた結果である。ユーザのアクティビティに関するトピックとシステム運用上のトピック両方を合わせると367個のトピックがあり、最大で一日あたり平均92GB（バッチ処理で圧縮された容量）のデータ追加が発生していた。メッセージは７日間保存され、全トピック全体での圧縮容量は平均約9.5TBである。ライブ（リアルタイムの）コンシューマに加えて、多数の巨大な Hadoop クラスタがあり、オフラインのデータロード処理によって不定期で、高スループット、かつ並列的に発生するバーストアクセスを行っている。

Kafkaについてもっと学ぶには、手始めに公式の Apache Kafka ドキュメントページにアクセスし、そしてKafka をダウンロードすること。LinkedInからの論文「LinkedInにおけるリアルタイムデータパイプラインの構築」もある。この論文では、なぜ Kafka が作られたのか、またKafkaの設計に影響を与えた要因について述べられている。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Java です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

NVIDIAがAI・ロボティクス・自動運転に跨るオープンモデル・データセット・ツールを公開

DeepSeek-V3.2が推論タスクでGPT-5を上回る

OpenAIがFrontierを発表、企業全体でAI エージェントを構築・デプロイ・管理するプラットフォーム

Google Cloudは、130,000ノードのGKEクラスターを用いてKubernetesの大規模スケールを実証

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

Online InfoQ Architect Certification

QCon AI Boston

QCon San Francisco