InfoQ ホームページ Data-Lake に関するすべてのコンテンツ
ニュース
RSSフィード-
Amazon S3がソート圧縮とZオーダー圧縮を追加、Apache Icebergクエリパフォーマン向上のため
AWSは最近、Amazon S3がApache Icebergテーブルに対してソート圧縮とZオーダー圧縮をサポートすると発表した。この新機能はスキャン時間とエンジンコストを削減し、S3 TablesおよびAWS Glue Data Catalogの最適化を使用する従来S3バケットの両方で利用可能だ。
-
AWS re:Invent 2024のハイライト:Aurora DSQLからAmazon Novaへ
2024年のre:Inventがラスベガスで閉幕した。予想通り、AIは会議の重要な焦点であり、Amazon NovaとSagemakerの新バージョンはもっとも重要なハイライトの一つであった。しかし、コミュニティでもっとも興奮を呼んだ発表は、アクティブ・アクティブな高可用性を備えたサーバーレス分散SQLデータベース、Amazon Aurora DSQLのプレビューだった。
-
Amazon S3、データ管理とクエリ改善に向けたメタデータ機能をプレビュー版に導入
Amazon Web Services社(AWS)は、ユーザーによるデータ検出と管理を簡素化を目的として設計された新機能、Amazon S3 メタデータを発表した。現在、米国東部(オハイオ州、バージニア州北部)リージョン、および米国西部(オレゴン州)リージョンでプレビュー版での利用が可能である。S3 メタデータでは、リアルタイムのメタデータ更新とAWS分析サービスとの統合を活用し、ユーザーによるS3データに対するクエリおよび分析が可能になっている。
-
AWSがS3 Tables Bucketを発表:S3はデータレイクハウスになるのか?
AWSは最近、分析ワークロードに最適化されたマネージドApache IcebergテーブルであるS3 Tables Bucketを発表した。クラウドプロバイダーによると、この新しいオプションは、標準的なS3ストレージと比較して、Apache Icebergテーブルのクエリパフォーマンスを最大3倍高速化し、トランザクションレートを最大10倍高速化するという。
-
Data Solutions Framework:AWS上でデータソリューションを構築するためのオープンソースプロジェクト
AWSはこの程、Data Solutions Framework (DSF)をリリースした。これは、AWS上でデータソリューションの作成を加速するために設計された、オープンソースのフレームワークである。AWS CDKを使用して構築されたこのフレームワークは、データソリューションを構築するためのビルディングブロックとして抽象化とパターンを公開しており、TypeScript(npm)とPython(PyPi)で利用できる。
-
B2Bデータ交換:AWS 上のマネージド電子データ交換 (EDI)
AWSは最近、企業がEDIベースのビジネス・トランザクションの変革を自動化および監視できるプラットフォーム、B2B Data Interchangeを発表した。このサービスは、取引先を管理し、EDIドキュメントをJSONやXMLフォーマットに変革するためのローコード・インターフェイスを提供する。
-
Netflix、MaestroとApache Icebergを使ったインクリメンタル処理ソリューションを構築
Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。
-
Googleがプレビュー版で新しいクロスプラットフォームデータストレージエンジンのBigLakeを発表
直近のCloud Data Summitで、GoogleはBigLakeのプレビュー版を発表した。これは、新しいデータレイクストレージエンジンであり、これによって企業がデータウェアハウスとデータレイク内のデータを簡単に分析できるようになる。
-
AWSがプレビュー版としてHealthLakeとRedshift MLを発表
AWSは、12月のre:Invent 2020中に、Amazon HealthLakeサービスのプレビューリリース版とRedshift MLと呼ばれるAmazon Redshiftの機能を発表した。Amazon HealthLakeは、ヘルスケア、健康保険、製薬会社がNLP(Natural Language Processing)を利用してデータから価値を引き出すためのデータレイクサービスである。Redshift MLは、SageMakerへのゲートウェイをRedshiftユーザーに提供するサービスである。
-
-
Databricksがデータレイクの信頼性を高めるためにDelta Lakeをオープンソース化
Databricksは最近、ACIDトランザクションをApache Sparkおよびビッグデータワークロードにもたらすための、独自のストレージレイヤであるDelta Lakeのオープンソース化をを発表した。Delta LakeはすでにMcAffee、Upworkなどのいくつかの会社で使用されているが、DatabricksはApache Spark開発者の会社である。Delta Lakeは、データレイクがよく直面する異種データの問題に取り組んでいる。
-
Apache Rangerがトップレベルのプロジェクトに昇格
Apache Hadoopエコシステムのセキュリティ管理フレームワークであるApache Rangerがトップレベルに昇格した。Rangerは、Apache HBase、Hadoop(HDFSとYARN)、Apache Hive、Apache Kafka、Apache Solrなど、サポート対象のHadoopコンポーネントに適用されるセキュリティポリシーを一元的に定義および管理するためのコンポーネントである。