BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化

Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化

原文(投稿日:2019/05/20)へのリンク

Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeオープンソース化をを発表した。Delta LakeはすでにMcGraw Hill、McAffee、Upwork、Booz Allen Hamiltonなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。

Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。複数のパイプラインからデータを取り込むということは、エンジニアがすべてのデータソースにわたって、手動でデータの整合性をとる必要があることを意味する。Delta LakeはACIDトランザクションをデータレイクにもたらし、最も高いレベルの分離が適用され、シリアライザブルである。

Delta Lakeはタイムトラベルを提供し、ファイルのすべてのバージョンを取得することができる。これはGDPRやその他の監査関連の要求に非常に便利な機能である。ファイル上のメタデータは、データとまったく同じプロセスで格納され、それにより同じレベルの処理と同じ機能を実現する。

Delta Lakeではスキーマの強制することができる。データの型とフィールドの存在をチェックし、データを確実にクリーンに保つことができる。一方、スキーマの変更はDDLを必要としないが、自動的に適用できる。

Delta Lakeは既存のデータレイクの上にデプロイされ、バッチデータとストリーミングデータの両方と互換性があり、新しいデータソースとして既存のSparkジョブにプラグインできる。データは広く知られているApache Parquet形式で保存される。

Delta Lakeは、昨年発売されたDatabricksの最新のオープンソースプラットフォームであるMLFlowとも互換性がある。コードはGitHubで入手できる。

この記事に星をつける

おすすめ度
スタイル

BT