Databricks Ouvre Les Sources De Delta Lake Ce Qui Rend Les Data Lake Plus Fiables

Databricks a récemment annoncé l'ouverture des sources de Delta Lake, sa couche de stockage propriétaire, pour apporter les transactions ACID à Apache Spark et aux charges de travail Big Data. Databricks est la société derrière les créateurs d'Apache Spark, alors que Delta Lake est déjà utilisé dans plusieurs sociétés telles que McGraw Hill, McAffee, Upwork et Booz Allen Hamilton.

Delta Lake s’attaque au problème de données hétérogène que rencontrent souvent les data lake. L’acquisition de données à partir de plusieurs pipelines signifie que les ingénieurs doivent appliquer manuellement l’intégrité des données, dans toutes les sources de données. Delta Lake peut effectuer des transactions ACID vers le data lake en appliquant le niveau d’isolement le plus élevé, à savoir la possibilité de sérialisation.

Delta Lake permet de voyager dans le temps, de pouvoir extraire chaque version d'un fichier à temps, ce qui est très utile pour le GDPR et d'autres demandes liées à l'audit. Les métadonnées sur les fichiers sont stockées en utilisant exactement le même processus que les données, permettant ainsi le même niveau de traitement et la même richesse fonctionnelle.

Delta Lake fournit des fonctionnalités d'application de schéma. Les types de données et la présence de champs peuvent être vérifiés et appliqués, en s'assurant que les données peuvent rester propres. Les modifications de schéma, par contre, ne nécessitent pas de DDL, mais peuvent être appliquées automatiquement.

Delta Lake est déployé au-dessus d’un data lake existant. Il est compatible avec les données de traitement par lots et en mode streaming de données et peut être connecté à un job Spark existant en tant que nouvelle source de données. Les données sont stockées au format familier d’Apache Parquet.

Delta Lake est également compatible avec MLFlow, la nouvelle plateforme open source de Databricks, lancée l’année dernière. Le code est disponible sur GitHub.

Débloquez l'expérience InfoQ complète

Vous n'avez pas encore de compte InfoQ ?

Sujets

Comment Utiliser Le Chiffrement Pour La Défense En Profondeur Dans Les Apps Natives Et Navigateurs

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Les Prédictions De Temps Chez Uber Eats

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

Liens utiles

Sélectionner votre région

Evaluer cet article

Ce contenu est dans le sujet Data Science

Sujets liés

Contenu éditorial lié

Contenu sponsorisé lié

Contenu Éducatif

La Nouvelle Version D'Asahi Linux Prend En Charge Les Processeurs Apple M1 Ultra Et M2

PostgreSQL 14 Casse Les Pilotes .NET Et Java Pour PostgreSQL

Docker Desktop 4.6 Pour Mac Améliore Les Performances De Partage

Comment Eviter Le Verrouillage Des Fournisseurs Sans Serveurs Avec Design Patterns ?

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Ballerina : Un Langage De Programmation Orienté Données

La Dette Technique Est Quantifiable En Tant Que Dette Financière : Impossible Pour Les Développeurs

Les Tests De Performance Doivent S'Appuyer Sur Les Tendances

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Grab A Partagé Son Experience Sur La Conception De Plate-formes De Données Distribuées

Microsoft Research Développe un Nouveau Système de Language-Vision : VinVL

Les Prédictions De Temps Chez Uber Eats

Les Facteurs Clés De La "MFA Fatigue" Dont A Ete Victime Uber

Adoption D'Environnements De Développement À Distance Chez Slack

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027