InfoQ ホームページニュース S3と新しいOR1インスタンスによるAmazon OpenSearch Zero ETL

S3と新しいOR1インスタンスによるAmazon OpenSearch Zero ETL

2024年1月24日読了時間 6 分

作者：

Claudio Masolo

翻訳者

Takashi Kawase

Amazonは、Amazon OpenSearchサービスのAmazon S3とのゼロ抽出、変換、ローディング（ETL）統合のプレビューを発表した。これにより、サービスを切り替えることなく、Amazon S3およびS3ベースのデータレイクの操作ログを分析する新しい方法が提供される。この開発により、ユーザーはクラウドオブジェクトストアでクエリーの頻度が低いデータをシームレスに調べ、同時にOpenSearchサービスの運用分析と可視化機能を活用できる。

Amazonはまた、Amazon OpenSearch Service用の新しいOR1インスタンスも発表した。これは、Amazon Simple Storage Service（Amazon S3）をプライマリストレージとして使用するクラスタを作成できるソリューションである。これらのインスタンスでは、大量のデータを取り込み、保存し、インデックスを作成し、アクセスが可能になり、(AWS が主張しているように) 既存のインスタンスタイプと比較して価格/パフォーマンスが30%向上する。

OpenSearch ServiceのAmazon S3機能による直接クエリは、ETLプロセスを不要にし、データの重複や複数の分析ツールの管理に伴う運用の複雑さを軽減する。この統合により、顧客は運用データを直接照会できるようになり、コストと時間を節約できる。ユーザーは、OpenSearchサービス内でこのETL不要の統合を設定し、事前定義されたダッシュボードを含む様々なログタイプのテンプレートを活用し、特定のログタイプに合わせてデータ高速化を調整できる。テンプレートには、VPCフロー・ログ、Elastic Load Balancingログ、NGINXログが含まれ、高速化には、インデックス・スキップ、マテリアライズド・ビュー、カバード・インデックスが含まれる。

Amazon S3との直接クエリにより、ユーザーはセキュリティ・フォレンジックや脅威分析に不可欠な複雑なクエリを実行できるようになり、サービスのダウンタイムやセキュリティ・イベントを調査するために複数のソースのデータを相関できる。統合のセットアップ後、ユーザーはOpenSearchダッシュボードまたはOpenSearch APIから直接クエリーを開始でき、スケーラビリティ、コスト効率、セキュリティのために接続を簡単に監査できる。

Amazon S3を使って直接クエリを開始するには、AWSマネジメント・コンソールかAPIを使ってOpenSearchサービス用の新しいデータ・ソースを作成する。各データソースはAWS Glue Data Catalogを利用し、S3バケットを表すテーブルを管理する。Amazon S3 テーブル、データインデックス、OpenSearch ダッシュボードでのデータクエリの設定は、データソースの作成に続いて行われる。

設定プロセスでは、OpenSearch Service コンソールでデータソースを作成し、データソースのタイプを Amazon S3 with AWS Glue Data Catalog に指定し、データソースの IAM ロールを選択する。その後、ユーザーは OpenSearch Dashboards に移動して、アクセス・コントロールの設定、テーブルの定義、ログ・タイプ・ベースのダッシュボードの設定、データのクエリーができる。

Amazon S3にあるデータで最適なパフォーマンスを得るために、ユーザーは3つのアクセラレーションを設定できる。スキップ・インデックスは、Amazon S3内のデータのメタデータのみにインデックスを付け、保存されているデータを素早く特定することに重点を置いている。マテリアライズド・ビューは、クエリーやダッシュボードのビジュアライゼーションのための集計のような複雑なクエリーをサポートする。カバーリングインデックスは、3つのタイプの中でもっともパフォーマンスが高く、指定したテーブルのカラムから全てのデータを取り込む。

テーブルがセットアップされると、ユーザーはOpenSearch DashboardsのDiscover機能を使ってデータを照会し、AWS Glue Data Catalogの指定されたテーブルに対してサンプルSQLクエリを実行できる。全体として、この直接的なクエリの統合は、Amazon OpenSearch ServiceとAmazon S3内のデータ分析の効率性、シンプルさ、スピードを強化し、運用データへのシームレスで直接的なアクセスを求めるユーザーに合理的なエクスペリエンスを提供する。

OpenSearchダッシュボードの例

Amazon OpenSearch Serviceの新しいOR1インスタンスは、11ナインのデータ耐久性とゼロタイムのRPO（Recovery Point Objective）を備え、卓越した信頼性と回復力を提供する。OR1インスタンスは、インタラクティブなログ分析、リアルタイムでのアプリケーション監視などを可能にする。

OR1インスタンスは8つのサイズで提供され、クラスタのデータノードとして機能する。各インスタンス・サイズは異なるコンピューティング要件に対応し、特定のニーズに基づいた柔軟性を提供する。利用可能なOR1インスタンスの内訳は以下の通りだ。

Instance Name	vCPU	Memory	EBS Storage Max (gp3)
or1.medium.search	1	8 GiB	400 GiB
or1.large.search	2	16 GiB	800 GiB
or1.xlarge.search	4	32 GiB	1.5 TiB
or1.2xlarge.search:	8	64 GiB	3 TiB
or1.4xlarge.search	16	128 GiB	6 TiB
or1.8xlarge.search	32	256 GiB	12 TiB
or1.12xlarge.search	48	384 GiB	18 TiB
or1.16xlarge.search	64	512 GiB	24 TiB

Amazon Elastic Block Store（Amazon EBS）ボリュームがプライマリストレージであり、到着時にS3への同期データコピーを保証する。この革新的なアプローチは、最近OpenSearchのために導入されたリモートバックアップストレージとセグメントレプリケーション機能を活用している。S3内のデータは、レプリカの作成と、ノード障害や定期的なリバランシング操作によるシャード移動後のEBSへの再ハイドレートに利用される。OR1インスタンスは、Data Nodesパネルのクラスタ構成から選択できる。

OpenSearch OR1ノードの構成

最適なインスタンスサイズを決定するには、「Sizing Amazon OpenSearch Service domains」ドキュメントのガイドラインを参照する。

この新しいストレージ・オプションには、エンジンのバージョン、リージョン、価格といった考慮すべき重要なポイントがある。OR1インスタンスは、Amazon OpenSearch Serviceエンジンのバージョン2.11以上でサポートされている。OR1インスタンスファミリーは、US East、US West、Asia Pacific、Europeを含む複数のAWSリージョンで利用できる（完全なリストはAWSドキュメントを参照）。データノードのオンデマンドまたはリザーブド価格と、EBSストレージの追加コストを支払う。

結論として、OR1インスタンスの導入はAmazon OpenSearch Serviceの大きな進歩を意味し、ユーザーに比類のないストレージ機能、パフォーマンスの向上、多様なデータ集約型アプリケーションのための堅牢なインフラを提供する。

作者について

Claudio Masolo

もっと見るより少なく

S3と新しいOR1インスタンスによるAmazon OpenSearch Zero ETL

作者について

Claudio Masolo

この記事に星をつける

このコンテンツのトピックは DevOps です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター