BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 一元型データモノリスの解決策としての分散型データメッシュ

一元型データモノリスの解決策としての分散型データメッシュ

原文(投稿日:2020/01/31)へのリンク

企業のデータアーキテクトは、大規模な一元管理型データプラットフォームではなく、分散型のデータメッシュを構築するべきだ。このようなアプローチ変更にはパラダイムシフトが必要だと、ThoughtWorksのプリンシパルテクノロジコンサルタントであるZhamak Dehghani氏は、QCon San Franciscoでの講演とその関連記事で主張している。データがますます遍在化する現在、データウェアハウスやデータレイクといった従来型アーキテクチャではそのニーズに耐えられず、効率的なスケールアップが不可能になっている。この本質的な非効率性を克服するには、ドメイン指向のデータオーナシップを包含する分散データメッシュアプローチが必要なのだ、とDehghani氏は主張する。

"次世代の企業データプラットフォームのアーキテクチャは、分散ドメイン駆動アーキテクチャ(Distributed Domain Driver Architecture)、セルフサービスプラットフォーム設計(Self-serve Platform Design)、データのプロダクト思考(Product Thinking with Data)といった方向に収斂しつつあります。"

講演ではいくつかの実例が紹介されたが、特に注目されたのは新たな管理原則と、その思想をサポートするための新しい用語の数々だ。例えば、取得(ingesting)より提供(serving)抽出とロード(extracting and loading)よりも発見と利用(discovering and using)、といった具合である。

従来型のデータプラットフォームアーキテクチャには3つの障害モードがある、とDehghani氏は考える。ひとつは、一元的でモノリシックであることだ。あらゆる種類のデータをひとつにまとめる手法は、小規模な組織でこそ機能するものの、大量のデータソースとさまざまなデータ利用者を抱える企業においては失敗に終わることになる。

ふたつめは、氏が"結合したパイプラインの分解"と呼ぶ問題である。 何世代にもわたるアーキテクトたちが、データプラットフォームを"データ処理ステップのパイプライン"に分解する作業を続けた結果、それぞれのステップは変更軸に対して直交的になり、新機能の導入時にすべてのステップを変更する必要が生じているのだ。

サイロ化、そして過度に特化したオーナシップが、最後の障害モードである。一元型アーキテクチャでは、データを提供するデータソースチームと、処理されたデータを摂取する消費者チームというカテゴリが自然に発生する。間に位置するのは、データやマシンラーニングの専門家たちだ。2つの外部グループはドメイン指向であるため、中央のチームはドメインを意識せざるを得なくなる。

データメッシュ導入のモチベーションは、このようなデータチームのサイロ化を回避にあるのだ。

画像著作権: Zhamak Dehghani

Dehghani氏はこれらの課題を、新たな要件がすべての層の変更を必要とするというN層モノリスの課題と比較した。マイクロサービスは、このような変化の要素にはより適合するが、また違った設計アプローチが必要になる。同じように、データメッシュアーキテクチャを成功させるためにも、思想をドラマティックに変えることが必要なのだ。

"モノリシックなデータプラットフォームを分散するためには、データやそのローカリティ、オーナシップに関する考え方をひっくり返さなくてはなりません。ドメインから一元所有のデータレイクやプラットフォームに向かってデータを流すのではなく、ドメインが使いやすい方法で、自分たちのドメインデータをホストして提供する必要があるのです。"

ここで想定されるアーキテクチャは、ファーストクラスのコンポーネントとしてドメインデータプロダクトを重視しつつ、そのドメインを理解しているチームがぞれを所有する、というものだ。このようなアーキテクチャの下では、モノリシックで硬直的なパイプラインはもはや設計上の主要な問題ではなく、データの提供側と使用側も明確に分離されない。分散されたチームは自分たちの必要とするデータを使用して、自分たちのアウトプットを他チームのためにメッシュに返すことが可能なのだ。

このようなアーキテクチャを成功させるには、データプロダクトの発見とアクセスが可能で、信頼性があり、自己記述的で、相互運用性を備え、セキュアで、グローバルなアクセスコントロールによって管理されていなければならない。こうした状況を実現するのは個々のデータプロダクトの所有者の責務であり、それを支援するのがフェデレーテッドガバナンス(federated governance)と、データインフラストラクチャを提供するプラットフォームなのだ。

データメッシュの概要

画像著作権: Zhamak Dehghani

データウェアハウスとデータレイクはこのアーキテクチャ下でも依然として存在可能だが、それらは一元的なモノリスではなく、もはやメッシュのひとつのノードに過ぎない。つまり、データウェアハウスやデータレイクの実現する機能が引き続き必要であれば、それらを利用することに何の問題もないのだ。ここにおいても、マイクロサービスとポリグロットソリューションの採用には相関関係がある。

Dehghani氏のQConでの講演"Data Mesh Paradigm Shift in Data Platform Architecture"は、間もなく公開される予定である。関連する記事であるHow to Move Beyond a Monolithic Data Lake to a Distributed Data "は現在公開中だ。氏は近々、InfoQポッドキャストのゲストとしても登場する予定である。

この記事に星をつける

おすすめ度
スタイル

BT