BT

InfoQ ホームページ ニュース Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化

Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化

ブックマーク

原文(投稿日:2019/05/20)へのリンク

Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeオープンソース化をを発表した。Delta LakeはすでにMcGraw Hill、McAffee、Upwork、Booz Allen Hamiltonなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。

Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。複数のパイプラインからデータを取り込むということは、エンジニアがすべてのデータソースにわたって、手動でデータの整合性をとる必要があることを意味する。Delta LakeはACIDトランザクションをデータレイクにもたらし、最も高いレベルの分離が適用され、シリアライザブルである。

Delta Lakeはタイムトラベルを提供し、ファイルのすべてのバージョンを取得することができる。これはGDPRやその他の監査関連の要求に非常に便利な機能である。ファイル上のメタデータは、データとまったく同じプロセスで格納され、それにより同じレベルの処理と同じ機能を実現する。

Delta Lakeではスキーマの強制することができる。データの型とフィールドの存在をチェックし、データを確実にクリーンに保つことができる。一方、スキーマの変更はDDLを必要としないが、自動的に適用できる。

Delta Lakeは既存のデータレイクの上にデプロイされ、バッチデータとストリーミングデータの両方と互換性があり、新しいデータソースとして既存のSparkジョブにプラグインできる。データは広く知られているApache Parquet形式で保存される。

Delta Lakeは、昨年発売されたDatabricksの最新のオープンソースプラットフォームであるMLFlowとも互換性がある。コードはGitHubで入手できる。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。