直近のCloud Data Summitで、Googleは最近BigLakeのプレビュー版を発表した。これは、新しいデータレイクストレージエンジンであり、これによって企業がデータウェアハウスとデータレイク内のデータを簡単に分析できるようになる。
BigLakeによって、ユーザは、AWSとAzure上のBigQueryとマルチクラウドデータレイク横断で、きめ細かいアクセス制御とパフォーマンスアクセラレーションを利用できるようになる。さらに、このサービスでは、Google Cloudとオープンソースエンジン全体でデータに対して均一に、安全にアクセスできることも保証されている。
BigLakeを使うと、ユーザはBigQueryをマルチクラウドデータレイクや、ParquetやORCなどのオープンフォーマットで使えるように拡張すると共に、新たなインフラがなくても、きめ細かいセキュリティ制御の全てを維持できる。さらに、データの唯一のコピーを保持し、Google CloudやSpark、Presto、Trino、Tensorflowなどのオープンソーステクノロジーなど、選択した分析エンジン全体に一貫したアクセスルールを課すことができる。そして最後に、DataPlexユーザとの統合により、大規模なガバナンスと管理を統合することができる。
ポリシータグを使うと、ユーザはテーブル、行、列レベルでBigLakeテーブルのセキュリティを指定できる。セキュリティのきめ細かい制御は、Google Cloud横断で継続的に実装されている。そして、Google Cloud Storageを通して定義されたBigLakeテーブル向けのBigLake接続を利用するオープンソースエンジンをサポートしている。また、BigQuery Omniにより、Amazon S3とAzureデータレイクストレージGen 2で定義されたBigLakeテーブルにセキュリティ制限を適用できるようになる。そのため、制限のかかったマルチクラウドに対する分析ができ、ビッグデータ愛好家のChristian Laurer氏によるMediumの記事で挙げられた利点をもたらす。
2つの異なる環境でデータを複製し、データサイロを作る必要がないことは大きなメリットです。BigLakeを使うと、データに権限を割り当てることもできるため、データガバナンスをサポートすることもできます。
現在、レイクハウス製品(データレイクとデータウェアハウスの組み合わせ)を提供しているクラウドプロバイダーはGoogleだけではない。Databricksは、Delta Lakeを提供する世界初のパイオニアであった。さらに、そういったソリューションを持つAWSや、他にもDremioからStarburstまで、オープンデータエコシステムの企業がいる。
dbInsight LLCのプリンシパルのTony Bear氏は、ツイートで次のように述べている。
Google #BigLakeと、それに関連する発表は、私が今年打ち込んできた中核テーマに当てはまります。クラウドプロバイダーは、顧客の肩から統合の負担を取り除くために結合組織を必要としています。
最後に、BigLakeの詳細については、ドキュメントのWebサイトを参照してください。価格詳細については、価格のセクションを参照してください。