BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AWS Glue 5.0がSpark 3.5.2を導入、ETLパフォーマンスを強化

AWS Glue 5.0がSpark 3.5.2を導入、ETLパフォーマンスを強化

原文リンク(2025-02-01)

ラスベガスで開催された最新のre:Inventカンファレンスにおいて、AmazonはApache Sparkを活用したETLジョブ高速化のために設計されたAWS Glue 5.0の一般提供を発表した。このサーバーレスデータ統合サービスの最新リリースでは、パフォーマンスとセキュリティの向上とともに、Spark 3.5.2、Python 3.11、Java 17を含むアップグレードされたランタイムが導入されている。

より迅速なインサイトを得ながらデータ統合ワークロードの開発、実行、スケーリングを行うように設計されたAWS Glueは、複数のソースからのデータの準備と統合のプロセスをシンプルにするサーバーレスデータ統合サービスである。5.0リリースでは、Apache Iceberg、Delta Lake、Apache Hudiを含むオープンテーブル形式の高度な機能をサポートしている。また、ジョブ開始時間の短縮、自動パーティションプルーニング、Amazon S3へのネイティブアクセスも提供しています。

Spark 3.5.2は、Arrow最適化Python UDF、Pythonユーザー定義テーブル関数、および組み込みのステートストア実装としてのRocksDBステートストアプロバイダーのサポートなど、Glue 5.0に大きな改善をもたらしている。また、Spark構造化ストリーミングに関連する多数の改善も含まれている。さらに、AWS Glue 5.0はオープンテーブル形式ライブラリのサポートを更新し、Apache Hudi 0.15.0、Apache Iceberg 1.6.1、Delta Lake 3.2.1をサポートしている。

プロジェクトチームによると、パフォーマンスの向上はデータ統合ワークロードのコスト削減に役立つという:

AWS Glue 5.0は、AWS Glueジョブのコストパフォーマンスを向上させます。(...)TPC-DSデータセットはS3バケット内にParquet形式で配置され、私たちはAWS Glueで30 G.2Xワーカーを使用しました。Amazon S3上でのAWS Glue 5.0 TPC-DSテストは、AWS Glue 4.0と比較して58%高速化し、コストを36%削減できることが確認されました。

AWSエコシステム内では、Glue 5.0はSageMaker Lakehouseとのネイティブ統合をサポートし、Amazon RedshiftデータウェアハウスとS3データレイク全体での統合アクセスを可能にする。さらに、SageMaker Unified Studioは統合ノートブックとビジュアルETLフローエディタの計算ランタイムでGlue 5.0ををサポートしている。チームはLake Formationと統合されたGlue 5.0を使用してデータレイクテーブルに対するきめ細かなアクセスコントロール(FGAC)を適用する方法を説明する記事も公開している。彼らはこう書いている:

FGACにより、テーブル、列、行レベルでデータレークリソースへのアクセスを細かく制御できるようになります。(...)AWS Glue 5.0をLake Formationと組み合わせて使用することで、AWS Glueがジョブ実行する際に、各Sparkジョブに対してLake Formationの権限制御を適用するための権限レイヤーを強制できます。(...)この機能により、AWS GlueやAmazon EMRなどの異なるサーバーレス環境にSparkスクリプトを移行する際の労力を削減し、移植性を向上させることができます。

Slalomのプリンシパルコンサルタント Adriano Nicolucci氏はGlue 5.0関するビデオを公開し、コメントを発表した:

ETLワークフローを実行している場合、これらの機能強化はパフォーマンスを向上させ、コストを削減し、オペレーションを効率化します。

Glue 5.0は現在、GlueがサポートされているすべてのAWSリージョンで一般提供されている。

作者について

この記事に星をつける

おすすめ度
スタイル

BT