InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
AWS、European Sovereign Cloudの独立した欧州ガバナンスと運用を発表
AWSは、AWS European Sovereign Cloudの独立した欧州ガバナンスの主要な構成要素を発表した。これには、新しいEU管理の親会社と専用のセキュリティオペレーションセンターが含まれる。この戦略的な動きにより、AWSは2025年末までにドイツのブランデンブルク州に最初のリージョンを立ち上げることを目指している。これは、欧州政府と企業の厳格なデジタル主権要件を満たすためである。
-
Googleが機密フェデレーション分析でデータプライバシーを強化
Googleはプライバシーを保護しながらデータ処理の透明性を高めるために設計された技術、Confidential Federated Analytics(CFA)を発表した。フェデレーション分析を基盤に、CFAは機密コンピューティングを活用して生データがサーバーやエンジニアに公開されることなく、ユーザーデータに対して事前に定義された検査可能な計算のみが実行されるようにする。
-
データコントラクトでデータチームのチームコラボレーションを促進するには
データコントラクトは、データプロバイダーとデータコンシューマー間のインターフェース定義であり、データモデル、品質保証、所有権などを指定する。Jochen Christ氏によると、データコントラクトはデータメッシュでの分散データのデータ所有権の決定に不可欠であり、このおかげでデータ特定性、データ相互運用性、データガバナンスが確保されている。データコントラクトでチーム間のコミュニケーションが促進され、データプロダクトの信頼性と品質が向上している。
-
AWS Glue 5.0がSpark 3.5.2を導入、ETLパフォーマンスを強化
ラスベガスで開催された最新のre:Inventカンファレンスにおいて、AmazonはApache Sparkを活用したETLジョブ高速化のために設計されたAWS Glue 5.0の一般提供を発表した。このサーバーレスデータ統合サービスの最新リリースでは、パフォーマンスとセキュリティの向上とともに、Spark 3.5.2、Python 3.11、Java 17を含むアップグレードされたランタイムが導入されている。
-
データメッシュ組織の構築
データメッシュ組織は、プロデューサー、コンシューマー、そしてプラットフォームで構成される。Matthias Patzak氏によると、プラットフォームチームの使命は、プロデューサーライフとコンシューマーライフをシンプルで効率的かつストレスフリーにすることだという。データは組織全体で、検出可能で理解しやすく、信頼でき、安全かつ簡単に共有できなければならない。
-
Uberのバッチ・データ・プラットフォームの拡張:データ・メッシュの原則によるクラウドへの道のり
数ヶ月前、UberはGoogle Cloud Platform(GCP)上でバッチデータ分析と機械学習プラットフォームのクラウドへの移行を開始した。最近のエンジニアリング・ブログへの投稿で、Uberは重要なデータ・メッシュの原則を取り入れたバッチ・データのクラウド移行に関する追加情報を提供した。
-
UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり
Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習(ML)トレーニング・スタックをGoogle Cloud Platform(GCP)に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。
-
Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約
Uber社は、DynamoDBとblobストレージから新しい長期的なソリューション、LedgerStoreと名付けられた専用のデータストアにすべての支払いトランザクションデータを移行した。同社はコスト削減を模索しており、以前はホットデータ(12週間前のもの)を保存するためのDynamoDBの使用を削減していた。この移行により、大幅なコスト削減とストレージアーキテクチャの簡素化が実現した。
-
データ処理ワークロードと柔軟なストレージを実現するAmazon ECSとAmazon EBSの統合
AWSは最近、Amazon Elastic Container Service (AmazonECS) がAmazon Elastic Block Store (AmazonEBS) との統合をサポートすることを発表した。
-
Netflix、MaestroとApache Icebergを���ったインクリメンタル処理ソリューションを構築
Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。
-
Discord、CassandraからScyllaDBへ何兆ものメッセージを移行
Discordは、何兆ものメッセージレコードを Apache Cassandraから ScyllaDBに移行。最大のクラスタのサイズをのCassandraノードの177からScyllaDBノードの72まで縮小し、読み取りと書き込みのテールレイテンシを削減した。この移行により、データベースの安定性とパフォーマンスが向上したため、新しい製品のユースケースが生まれた。
-
Uber、Compressed Log Processor (CLP)を使用してログ処理のコストを169分の1に削減
Uberは先日、Compressed Log Processor(CLP)を使ってログ処理のコストを劇的に削減した方法を公開した。 CLPは、テキストログを可逆圧縮し、解凍せずに検索することができるツールである。 Uberのログデータに対して169倍の圧縮率を達成し、ストレージ、メモリ、ディスク/ネットワーク帯域幅を節約することができた。
-
Amazon Elastic MapReduceがサーバーレス製品として一般向け提供へ
AWSは最近、Amazon Elastic MapReduce(EMR���サーバレスが一般向け提供(GA)となったことを発表した。この製品はサーバレスデプロイメントの選択肢の1つである。これは、クラスタやサーバを設定、管理、スケーリングすることなく、Apache SparkやHiveなどのオープンソースフレームワークを使ってビッグデータ分析アプリケーションを実行する顧客を対象としたものである。
-
Googleは最新のC2DマシンタイプとN2Dマシンタイプでコンフィデンシャルコンピューティングを提供
最新のAMD EPYCテクノロジーを採用するために、汎用(N2D)仮想マシンとコンピューティング最適化(C2D)仮想マシンをアップグレードしてから数か月後、Googleは現在、これらのマシンタイプ上でコンフィデンシャルコンピューティングをプレビュー版として利用できるようにした。
-
PipelineDPによりGoogleの差分プライバシーライブラリをPythonで提供
GoogleとOpenMinedは新たなオープンソースライブラリのPipelineDPをリリースした。これにより、研究者や開発者がバッチ処理システムを使って大規模なデータセットに差分プライベート集計を適用できるようになる。