Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化

原文(投稿日：2019/05/20)へのリンク

Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeのオープンソース化をを発表した。Delta LakeはすでにMcGraw Hill、McAffee、Upwork、Booz Allen Hamiltonなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。

Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。複数のパイプラインからデータを取り込むということは、エンジニアがすべてのデータソースにわたって、手動でデータの整合性をとる必要があることを意味する。Delta LakeはACIDトランザクションをデータレイクにもたらし、最も高いレベルの分離が適用され、シリアライザブルである。

Delta Lakeはタイムトラベルを提供し、ファイルのすべてのバージョンを取得することができる。これはGDPRやその他の監査関連の要求に非常に便利な機能である。ファイル上のメタデータは、データとまったく同じプロセスで格納され、それにより同じレベルの処理と同じ機能を実現する。

Delta Lakeではスキーマの強制することができる。データの型とフィールドの存在をチェックし、データを確実にクリーンに保つことができる。一方、スキーマの変更はDDLを必要としないが、自動的に適用できる。

Delta Lakeは既存のデータレイクの上にデプロイされ、バッチデータとストリーミングデータの両方と互換性があり、新しいデータソースとして既存のSparkジョブにプラグインできる。データは広く知られているApache Parquet形式で保存される。

Delta Lakeは、昨年発売されたDatabricksの最新のオープンソースプラットフォームであるMLFlowとも互換性がある。コードはGitHubで入手できる。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方