BT

Diffuser les Connaissances et l'Innovation dans le Développement Logiciel d'Entreprise

Contribuez

Sujets

Sélectionner votre région

Accueil InfoQ Actualités Databricks Ouvre Les Sources De Delta Lake Ce Qui Rend Les Data Lake Plus Fiables

Databricks Ouvre Les Sources De Delta Lake Ce Qui Rend Les Data Lake Plus Fiables

Favoris

Databricks a récemment annoncé l'ouverture des sources de Delta Lake, sa couche de stockage propriétaire, pour apporter les transactions ACID à Apache Spark et aux charges de travail Big Data. Databricks est la société derrière les créateurs d'Apache Spark, alors que Delta Lake est déjà utilisé dans plusieurs sociétés telles que McGraw Hill, McAffee, Upwork et Booz Allen Hamilton.

Delta Lake s’attaque au problème de données hétérogène que rencontrent souvent les data lake. L’acquisition de données à partir de plusieurs pipelines signifie que les ingénieurs doivent appliquer manuellement l’intégrité des données, dans toutes les sources de données. Delta Lake peut effectuer des transactions ACID vers le data lake en appliquant le niveau d’isolement le plus élevé, à savoir la possibilité de sérialisation.

Delta Lake permet de voyager dans le temps, de pouvoir extraire chaque version d'un fichier à temps, ce qui est très utile pour le GDPR et d'autres demandes liées à l'audit. Les métadonnées sur les fichiers sont stockées en utilisant exactement le même processus que les données, permettant ainsi le même niveau de traitement et la même richesse fonctionnelle.

Delta Lake fournit des fonctionnalités d'application de schéma. Les types de données et la présence de champs peuvent être vérifiés et appliqués, en s'assurant que les données peuvent rester propres. Les modifications de schéma, par contre, ne nécessitent pas de DDL, mais peuvent être appliquées automatiquement.

Delta Lake est déployé au-dessus d’un data lake existant. Il est compatible avec les données de traitement par lots et en mode streaming de données et peut être connecté à un job Spark existant en tant que nouvelle source de données. Les données sont stockées au format familier d’Apache Parquet.

Delta Lake est également compatible avec MLFlow, la nouvelle plateforme open source de Databricks, lancée l’année dernière. Le code est disponible sur GitHub.

Evaluer cet article

Pertinence
Style

Contenu Éducatif

Bonjour étranger!

Vous devez créer un compte InfoQ ou cliquez sur pour déposer des commentaires. Mais il y a bien d'autres avantages à s'enregistrer.

Tirez le meilleur d'InfoQ

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

Commentaires de la Communauté

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

BT