BT

Accueil InfoQ Articles Décloisonner Les décisions Grâce A Dremio

Décloisonner Les décisions Grâce A Dremio

Favoris

Les data warehouses ont offert aux organisations un modèle de gestion et de gouvernance de données très précis et bien circonscrit. Les data warehouses se sont retrouvés propulsés surtout à la fin des années 1990 grâce à Ralph Kimball et Bill Inmon.

Toutefois, aujourd’hui le nombre d’utilisateurs qui accèdent aux données dans les organisations ont énormément évolué.

Depuis Hadoop et la formalisation des principes du Data Lake, les organisations peuvent prétendre à la valorisation de «Toutes» leurs données. Cette centralisation des pratiques et des données pousse au décloisonnement des organisations du fait d’un accès unique et simplifié aux données.

Si techniquement les infrastructures existent, si globalement les solutions logicielles innovantes ont pénétré le marché, si le cloud a fait son apparition… Qu’en est-il du point de vue organisationnel ? Les briques logicielles favorisent-elles l’émancipation de pratiques «inclusives» ? Est-ce que toutes les données sont référencées en un même point ? Est-ce que tous les utilisateurs peuvent accéder à toutes les données qui leur sont autorisées ?

Une des difficultés que l’on rencontre souvent au sein des organisations, c’est la différence de point de vue qui peut exister entre DSI et Métier.

Il est ainsi primordial que la ou les solutions logicielles retenues pour la construction du «cadre» ou «socle» de la gestion des données commence par rapprocher ces deux mondes.

En effet, tous deux partagent le même objectif : servir au mieux la stratégie de l’organisation !

Et pour y parvenir : s’appuyer sur les données pour valider les décisions prises, pour renforcer la pertinence de celles-ci.

Maillage de données ou organiser la toile (web) de vos données

Si Data Warehouse, Data Lake, Data Hub sont des termes qui ont été repris par les médias et les directions, dans les organisations, ce n’est pas forcément les cas de «Logical Data Warehouse» (LDW) ou de «Data Mesh», qui eux, manquent à être connus ! Ces deux concepts renvoient à des modèles d’organisation de données dont l’infrastructure technique est centralisée et dont la gestion fonctionnelle, est, elle, décentralisée ! Une approche structurante, rigoureuse qui offre flexibilité et agilité.

Logical Data Warehouse

L’architecture du Logical Data Warehouse fournit des données et des métadonnées aux consommateurs de data pour soutenir la prise de décision, la construction d’analyses et le partage (export) des données. Pour ce faire, le stockage de données et de métadonnées sont découplés. L’accès aux données est réalisé via une couche «virtuelle» (découplage) ce qui augmente la flexibilité (la réutilisation de «vues virtuelles») ; et où données et métadonnées sont regroupées par domaine (orienté sujet), intégrées (nettoyées, enrichies), variant dans le temps et reproductible.

Dans une architecture logical data warehouse les consommateurs de données sont découplés des sources de données.

Dit plus simplement : Un Logical Data Warehouse (LDW) est une couche architecturale qui se trouve au-dessus des données opérationnelles, des data warehouses habituels, des data lakes (souvent construit en silo). Il fournit plusieurs mécanismes pour manipuler les données sans les déplacer et les transformer, tout en s’assurant que ces mêmes données soient exploitables (extraction, diffusion, visualisation).

Une architecture logical data warehouse conçue avec de la virtualisation de données et 4 couches de vues.

Data Mesh

Data Mesh est un concept très récent, 2019 ! Il part d’un constat saisissant concernant les plateformes de données actuelles : elles sont centralisées, monolithiques, avec une architecture de pipeline hautement couplée, divisées en  «silos» et gérées par des data engineers hyper-spécialisés. 

A contrario, le maillage de données (Data Mesh) se veut être un modèle d’architecture agnostique et universel pour une gestion flexible et une gouvernance agile des données. Les données s’articulent tels des «produits» dont l’architecture distribuée s’organise autour de domaines spécifiques et sont détenus par des équipes inter-fonctionnelles indépendantes. Elles se composent d’ingénieurs de données et de responsables produits (de données), utilisant une infrastructure de données commune comme plateforme pour héberger, préparer et servir leurs actifs de données.

Vue de très haut niveau d’une architecture Data Mesh – How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

Dit plus simplement : Data Mesh se conçoit telle une architecture de données distribuées conçue intentionnellement, sous une gouvernance centralisée et une normalisation pour l’interopérabilité, rendue possible par une infrastructure de données self-service partagée et homogénéisée. Il est clair que l’on est loin d’un modèle de gestion et de gouvernance de données en silos, fragmentées et inaccessibles.

Ces architectures répondent aux nouveaux enjeux des organisations face à la «démocratisation» de l’accès à la donnée pour chaque collaborateur.

Des processus de gouvernance de données «Simples»

Au delà des concepts, et quand bien même le nombre d’utilisateurs de la donnée est de plus en plus large : nous vous invitons très formellement à éviter tout usine à gaz pour la gouvernance de vos données.

Des équipes multidisciplinaires de données

Il est clair que vous aurez à un moment ou l’autre besoin d’un appui technique, d’identifier une ressource «responsable» des données, tant techniquement que fonctionnellement, et bien sûr d’analystes.

Pensez «produit», soyez inclusif, délivrez en mode agile

Tout le monde ne peut être «informaticien» ou «ingénieur de données» ! Cependant, qui connaît mieux sa donnée que l’utilisateur métier lui-même. Les métiers doivent donc avoir accès à la donnée ; il faut donc leur offrir les moyens d’y accéder par eux mêmes. La plateforme de données doit être en libre service. Insistons encore pour rappeler que l’infrastructure est commune, que la gouvernance technique est centralisée mais pas la gouvernance fonctionnelle qui elle, est au métier ! Cette dernière doit tout de même s’inscrire dans une politique commune. Ce rappel ainsi dressé, concernant votre plateforme de données en libre service (self-service).

  • Ayez des points très réguliers avec votre responsable fonctionnel de données. Cela vous permettra de vérifier où vous en êtes dans l’avancement de la construction ou de la mise à jour de vos jeux de données. 
  • Adoptez les méthodes agiles pour suivre ces petits pas de progression. 
  • Délivrez les améliorations (jeux de données) souvent de manière à servir rapidement les consommateurs de données.

Tout en restant simple, il vous est aussi possible d’imaginer cette gouvernance technique et fonctionnelle à l’échelle de votre organisation. Dans une grande majorité des cas, il s’agit de communication avant toute chose. Ainsi, vous pourrez à votre convenance mélanger l’effectif de vos équipes, faire travailler les membres de vos équipes selon des projets multi-secteurs, multi disciplinaires…

La méthodologie scrum ou l’agile s’applique largement à la gouvernance de vos données, et ce à l’échelle de votre organisation.

Dremio, une brique essentielle pour mailler vos données

Dremio se définit désormais tel un «Data Lake Engine». Il offre une connectivité à de nombreuses sources de données, gère la sécurité d’accès finement à l’ensemble des données en fonction des groupes d’utilisateurs et des utilisateurs eux mêmes. Et offre un partage collaboratif des données, une intégration avec les outils de business intelligence du marché grâce des standards tels que JDBC, ODBC.

Architecture de haut niveau de Dremio

Dremio rassemble DSI et Métier

Grâce à Dremio comme infrastructure centralisée, tout DSI peut l’exploiter, afin de mettre la donnée à disposition du plus grand nombre, tant pour les utilisateurs eux-mêmes que pour les analystes. Dans l’explication sur le maillage des données telle qu’énoncée plus haut, Dremio permet de généraliser l’accès à la donnée avec une unification de la manière dont la donnée est mise à disposition.

Dans Dremio, la couche sémantique est purement virtuelle. Elle peut être conçue sans avoir besoin de stocker physiquement les ensembles de données virtuels. La couche sémantique permet aux services informatiques d’appliquer des appellations propres (libellé de table, libellé colonnes), de la sécurité selon les besoins métier, tout en permettant aux utilisateurs métiers, aux analystes et aux data scientist d’explorer des données et de dériver de nouveaux ensembles de données virtuels, d’où le terme libre-service.

Grâce à une gestion d’autorisation à l’utilisateur, mais aussi à une organisation du travail selon des espaces collaboratifs pour gérer et partager les jeux de données ; Dremio permet la construction de couches successives de jeux de données depuis les sources jusqu’aux consommateurs.

Pas de mécanisme d’ETL, la donnée prend la forme attendue selon la finesse de besoins utilisateurs.

Dremio organise l’agilité nécessaire pour partager les données dans toute l’organisation

La DSI met donc à disposition les sources, avec une première couche de jeux de données à l’image des tables, ou fichiers qui en sont issus des sources et ce en collaboration avec le responsable applicatif ou le responsable technique des données : c’est la couche dite de données d’entreprise.

Grâce à cette première couche, le responsable fonctionnel des données spécifie les données qui sont nécessaires aux utilisateurs métiers. (table, fichiers, colonnes, attributs, formats) Bien sûr, il a réuni leurs besoins en amont : c’est la couche spécification métier.

Enfin, les utilisateurs métier n’ont accès qu’aux jeux de données mis à disposition par la couche spécification métier pour constituer leur couche de spécification d’application. Ils disposent en plus de leur espace de travail pour créer les jeux de données qui leurs sont utiles pour les analyses, les extractions, les visualisations qu’ils doivent mettre en œuvre.

Les espaces de travail s’organisent par domaine et sous-domaine

Se concertant régulièrement selon les méthodologies agiles, tous les jeux de données sont décrits grâce au catalogue de données de Dremio. Les jeux de données sont partagés, recherchés, commentés, améliorés pour une réutilisation optimale. En effet, les responsables des jeux de données sont clairement identifiés et font partis des métadonnées laissées dans la description des jeux de données. (via le catalogue de données de Dremio)

Documentez vos jeux de données avec Dremio Data Catalog

Tels de nombreux outils collaboratifs, Dremio facilite la collaboration entre utilisateurs, décloisonne l’organisation pour une gestion plus agile de la donnée. Sans prétendre être la solution utile à l’adoption des Logical Data Warehouse ou même à une architecture Data Mesh ; Dremio répond parfaitement à ces nouveaux enjeux auxquels font face désormais les organisations compte tenu du nombre d’utilisateurs devant manipuler et gouverner la donnée tout autant.

Si vous souhaitez donner l’accès à l’ensemble de vos données, Dremio est la solution qu’il vous faut. Et Synaltic peut vous accompagner dans une telle démarche.

A propos de l'auteur

Après un court passage par une startup dans les années 2000, Charly Clairmont fonde Altic qui est ensuite devenue Synaltic. Passionné par l'urbanisation des systèmes d’information, l'innovation, la donnée, il a toujours défendu le logiciel libre et l'open source.

 

Evaluer cet article

Pertinence
Style

Bonjour étranger!

Vous devez créer un compte InfoQ ou cliquez sur pour déposer des commentaires. Mais il y a bien d'autres avantages à s'enregistrer.

Tirez le meilleur d'InfoQ

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

Commentaires de la Communauté

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

BT

Votre profil est-il à jour? Merci de prendre un instant pour vérifier.

Note: en cas de modification de votre adresse email, une validation sera envoyée.

Nom de votre entreprise:
Rôle dans votre entreprise:
Taille de votre entreprise:
Pays/Zone:
État/Province/Région:
Vous allez recevoir un email pour confirmer la nouvelle adresse email. Ce pop-up va se fermer de lui-même dans quelques instants.