InfoQ ホームページ Big Data に関するすべてのコンテンツ
-
UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり
Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習(ML)トレーニング・スタックをGoogle Cloud Platform(GCP)に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。
-
Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約
Uber社は、DynamoDBとblobストレージから新しい長期的なソリューション、LedgerStoreと名付けられた専用のデータストアにすべての支払いトランザクションデータを移行した。同社はコスト削減を模索しており、以前はホットデータ(12週間前のもの)を保存するためのDynamoDBの使用を削減していた。この移行により、大幅なコスト削減とストレージアーキテクチャの簡素化が実現した。
-
データ処理ワークロードと柔軟なストレージを実現するAmazon ECSとAmazon EBSの統合
AWSは最近、Amazon Elastic Container Service (AmazonECS) がAmazon Elastic Block Store (AmazonEBS) との統合をサポートすることを発表した。
-
Netflix、MaestroとApache Icebergを使ったインクリメンタル処理ソリューションを構築
Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。
-
Discord、CassandraからScyllaDBへ何兆ものメッセージを移行
Discordは、何兆ものメッセージレコードを Apache Cassandraから ScyllaDBに移行。最大のクラスタのサイズをのCassandraノードの177からScyllaDBノードの72まで縮小し、読み取りと書き込みのテールレイテンシを削減した。この移行により、データベースの安定性とパフォーマンスが向上したため、新しい製品のユースケースが生まれた。
-
Uber、Compressed Log Processor (CLP)を使用してログ処理のコストを169分の1に削減
Uberは先日、Compressed Log Processor(CLP)を使ってログ処理のコストを劇的に削減した方法を公開した。 CLPは、テキストログを可逆圧縮し、解凍せずに検索することができるツールである。 Uberのログデータに対して169倍の圧縮率を達成し、ストレージ、メモリ、ディスク/ネットワーク帯域幅を節約することができた。
-
Amazon Elastic MapReduceがサーバーレス製品として一般向け提供へ
AWSは最近、Amazon Elastic MapReduce(EMR)サーバレスが一般向け提供(GA)となったことを発表した。この製品はサーバレスデプロイメントの選択肢の1つである。これは、クラスタやサーバを設定、管理、スケーリングすることなく、Apache SparkやHiveなどのオープンソースフレームワークを使ってビッグデータ分析アプリケーションを実行する顧客を対象としたものである。
-
Googleは最新のC2DマシンタイプとN2Dマシンタイプでコンフィデンシャルコンピューティングを提供
最新のAMD EPYCテクノロジーを採用するために、汎用(N2D)仮想マシンとコンピューティング最適化(C2D)仮想マシンをアップグレードしてから数か月後、Googleは現在、これらのマシンタイプ上でコンフィデンシャルコンピューティングをプレビュー版として利用できるようにした。
-
PipelineDPによりGoogleの差分プライバシーライブラリをPythonで提供
GoogleとOpenMinedは新たなオープンソースライブラリのPipelineDPをリリースした。これにより、研究者や開発者がバッチ処理システムを使って大規模なデータセットに差分プライベート集計を適用できるようになる。
-
Googleがコスト最適化のためにCloud Bigtableの自動スケーリングを導入
Cloud Bigtableは、Google Cloud Platform(GCP)上の大規模な運用および分析処理向けの、フルマネージドでスケーラブルなNoSQLデータベースサービスである。そして最近、このパブリッククラウドプロバイダーは、Bigtable Autoscalingの一般向け提供を発表した。これにより、アプリケーションの需要の変化に応じて、容量が自動的に追加、削除され、コストの最適化ができるようになる。
-
Amazon OpenSearchに履歴データの異常検出を追加
Amazon OpenSearch は先ごろ履歴データの異常検出サポートを導入した。この機械学習ベースの機能は、OpenSearch データの傾向、パターン、季節性を特定するのに役立つ。
-
Google Analyticsに対するオーストリアDPAの判決がEUベースのクラウドサービスへの道を開く
最近の判決で、オーストリアのデータ規制当局は、EU GDPR規制に基づいてGoogleアナリティクスの使用を違法を言い渡した。判決は非常に具体的に議論され、言葉で表現されている。一方で、それが意味するところはこの特定のケースの範囲をはるかに超えている。
-
Microsoft、分散マシンラーニングライブラリSynapseMLをオープンソース公開
Microsoftは、分散マシンラーニング(ML)パイプラインの構築と管理を行うオープンソースライブラリのSynapseMLをリリースすると発表した。SyanpseMLはApache Spark上で動作し、複数のデータストアを対象に言語非依存のAPI抽象化を提供するもので、Open Neural Network Exchange(ONNX)など既存のMLテクノロジに統合される。
-
Apache Sparkはバージョン3.2でPandas APIを提供
Apache Sparkチームは、Pandas APIを製品の最新の3.2リリースに統合した。この変更で、PySpark実行エンジンを使って、データフレーム処理を単一のマシン内の複数のクラスタまたは複数のプロセッサーに拡張できる。
-
AWSがAWS Data Exchange for Amazon Redshiftのパブリックプレビューを発表
最近、AWSはAWS Data Exchange for Amazon Redshiftのパブリックプレビューを発表した。この新機能により、顧客はAWS Data Exchangeでサードパーティデータを検索してサブスクライブし、Amazon Redshiftデータウェアハウスでクエリを実行できる。