InfoQ ホームページ Big Data に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

Cloud

AWS、European Sovereign Cloudの独立した欧州ガバナンスと運用を発表

AWSは、AWS European Sovereign Cloudの独立した欧州ガバナンスの主要な構成要素を発表した。これには、新しいEU管理の親会社と専用のセキュリティオペレーションセンターが含まれる。この戦略的な動きにより、AWSは2025年末までにドイツのブランデンブルク州に最初のリージョンを立ち上げることを目指している。これは、欧州政府と企業の厳格なデジタル主権要件を満たすためである。

Steef-Jan Wiggers 翻訳者 Naoko Koshimura
投稿日 2025年9月24日午前8時30分
AIと機械学習、データエンジニアリング

Googleが機密フェデレーション分析でデータプライバシーを強化

Googleはプライバシーを保護しながらデータ処理の透明性を高めるために設計された技術、Confidential Federated Analytics（CFA）を発表した。フェデレーション分析を基盤に、CFAは機密コンピューティングを活用して生データがサーバーやエンジニアに公開されることなく、ユーザーデータに対して事前に定義された検査可能な計算のみが実行されるようにする。

Robert Krzaczyński 翻訳者 Hiroaki.Sugimura
投稿日 2025年3月27日午前3時30分
カルチャー＆手法

データコントラクトでデータチームのチームコラボレーションを促進するには

データコントラクトは、データプロバイダーとデータコンシューマー間のインターフェース定義であり、データモデル、品質保証、所有権などを指定する。Jochen Christ氏によると、データコントラクトはデータメッシュでの分散データのデータ所有権の決定に不可欠であり、このおかげでデータ特定性、データ相互運用性、データガバナンスが確保されている。データコントラクトでチーム間のコミュニケーションが促進され、データプロダクトの信頼性と品質が向上している。

Ben Linders 翻訳者 kazuki
投稿日 2025年3月7日午前4時30分
Cloud

AWS Glue 5.0がSpark 3.5.2を導入、ETLパフォーマンスを強化

ラスベガスで開催された最新のre:Inventカンファレンスにおいて、AmazonはApache Sparkを活用したETLジョブ高速化のために設計されたAWS Glue 5.0の一般提供を発表した。このサーバーレスデータ統合サービスの最新リリースでは、パフォーマンスとセキュリティの向上とともに、Spark 3.5.2、Python 3.11、Java 17を含むアップグレードされたランタイムが導入されている。

Renato Losio 翻訳者 Hiroaki.Sugimura
投稿日 2025年2月7日午前5時30分
カルチャー＆手法

データメッシュ組織の構築

データメッシュ組織は、プロデューサー、コンシューマー、そしてプラットフォームで構成される。Matthias Patzak氏によると、プラットフォームチームの使命は、プロデューサーライフとコンシューマーライフをシンプルで効率的かつストレスフリーにすることだという。データは組織全体で、検出可能で理解しやすく、信頼でき、安全かつ簡単に共有できなければならない。

Ben Linders 翻訳者 Hiroaki.Sugimura
投稿日 2024年11月7日午前4時30分
DevOps

Uberのバッチ・データ・プラットフォームの拡張：データ・メッシュの原則によるクラウドへの道のり

数ヶ月前、UberはGoogle Cloud Platform（GCP）上でバッチデータ分析と機械学習プラットフォームのクラウドへの移行を開始した。最近のエンジニアリング・ブログへの投稿で、Uberは重要なデータ・メッシュの原則を取り入れたバッチ・データのクラウド移行に関する追加情報を提供した。

Claudio Masolo 翻訳者 Naoko Koshimura
投稿日 2024年11月1日午前3時30分
DevOps

UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり

Uber社は、公式エンジニアリング・ブログへの最近の投稿で、バッチデータ分析と機械学習（ML）トレーニング・スタックをGoogle Cloud Platform（GCP）に移行する戦略を明らかにした。Uberは、世界最大級のHadoopを導入しており、2つの地域にある数万台のサーバーで1エクサバイト以上のデータを管理している。オープンソースのデータエコシステム、特にHadoopは、データプラットフォームの礎となっている。

Claudio Masolo 翻訳者 Takashi Kawase
投稿日 2024年7月23日午前3時30分
設計/アーキテクチャ

Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約

Uber社は、DynamoDBとblobストレージから新しい長期的なソリューション、LedgerStoreと名付けられた専用のデータストアにすべての支払いトランザクションデータを移行した。同社はコスト削減を模索しており、以前はホットデータ（12週間前のもの）を保存するためのDynamoDBの使用を削減していた。この移行により、大幅なコスト削減とストレージアーキテクチャの簡素化が実現した。

Rafal Gancarz 翻訳者 Takahiro Odera
投稿日 2024年6月14日午前12時31分
AIと機械学習、データエンジニアリング

データ処理ワークロードと柔軟なストレージを実現するAmazon ECSとAmazon EBSの統合

AWSは最近、Amazon Elastic Container Service (AmazonECS) がAmazon Elastic Block Store (AmazonEBS) との統合をサポートすることを発表した。

Reza Rahimi 翻訳者 Takashi Kawase
投稿日 2024年1月30日午前11時24分
設計/アーキテクチャ

Netflix、MaestroとApache Icebergを��ったインクリメンタル処理ソリューションを構築

Netflixは、データ・プラットフォームにおけるインクリメンタル処理のための新しいソリューションを構築した。インクリメンタルアプローチは、完全なデータセットの処理を避けるため、コンピューティングリソースのコストと実行時間を大幅に削減する。同社は、Maestro workflow engineとApache Icebergを使用して、データの鮮度と精度を向上させ、マネージドバックフィル機能を提供する予定である。

Rafal Gancarz 翻訳者 Mitsuru Takatsuki
投稿日 2024年1月23日午前9時30分
設計/アーキテクチャ

Discord、CassandraからScyllaDBへ何兆ものメッセージを移行

Discordは、何兆ものメッセージレコードを Apache Cassandraから ScyllaDBに移行。最大のクラスタのサイズをのCassandraノードの177からScyllaDBノードの72まで縮小し、読み取りと書き込みのテールレイテンシを削減した。この移行により、データベースの安定性とパフォーマンスが向上したため、新しい製品のユースケースが生まれた。

Rafal Gancarz 翻訳者 Naoko Koshimura Ayako Ueno
投稿日 2023年7月12日午前5時46分
設計/アーキテクチャ

Uber、Compressed Log Processor (CLP)を使用してログ処理のコストを169分の1に削減

Uberは先日、Compressed Log Processor（CLP）を使ってログ処理のコストを劇的に削減した方法を公開した。 CLPは、テキストログを可逆圧縮し、解凍せずに検索することができるツールである。 Uberのログデータに対して169倍の圧縮率を達成し、ストレージ、メモリ、ディスク/ネットワーク帯域幅を節約することができた。

Eran Stiller 翻訳者 Ayako Ueno
投稿日 2023年3月22日午前12時5分
Cloud

Amazon Elastic MapReduceがサーバーレス製品として一般向け提供へ

AWSは最近、Amazon Elastic MapReduce（EMR��サーバレスが一般向け提供（GA）となったことを発表した。この製品はサーバレスデプロイメントの選択肢の1つである。これは、クラスタやサーバを設定、管理、スケーリングすることなく、Apache SparkやHiveなどのオープンソースフレームワークを使ってビッグデータ分析アプリケーションを実行する顧客を対象としたものである。

Steef-Jan Wiggers 翻訳者編集部T _
投稿日 2022年6月29日午前12時24分
Cloud

Googleは最新のC2DマシンタイプとN2Dマシンタイプでコンフィデンシャルコンピューティングを提供

最新のAMD EPYCテクノロジーを採用するために、汎用（N2D）仮想マシンとコンピューティング最適化（C2D）仮想マシンをアップグレードしてから数か月後、Googleは現在、これらのマシンタイプ上でコンフィデンシャルコンピューティングをプレビュー版として利用できるようにした。

Sergio De Simone 翻訳者編集部T _
投稿日 2022年6月28日午前2時25分
AIと機械学習、データエンジニアリング

PipelineDPによりGoogleの差分プライバシーライブラリをPythonで提供

GoogleとOpenMinedは新たなオープンソースライブラリのPipelineDPをリリースした。これにより、研究者や開発者がバッチ処理システムを使って大規模なデータセットに差分プライベート集計を適用できるようになる。

Patrick Zhang 翻訳者編集部T _
投稿日 2022年2月27日午後8時48分