InfoQ ホームページ Apache_Spark に関するすべてのコンテンツ

ニュース

RSSフィード

最新前の記事

Cloud

AWS Glue 5.0がSpark 3.5.2を導入、ETLパフォーマンスを強化

ラスベガスで開催された最新のre:Inventカンファレンスにおいて、AmazonはApache Sparkを活用したETLジョブ高速化のために設計されたAWS Glue 5.0の一般提供を発表した。このサーバーレスデータ統合サービスの最新リリースでは、パフォーマンスとセキュリティの向上とともに、Spark 3.5.2、Python 3.11、Java 17を含むアップグレードされたランタイムが導入されている。

Renato Losio 翻訳者 Hiroaki.Sugimura
投稿日 2025年2月7日午前5時30分
DevOps

Uberのバッチ・データ・プラットフォームの拡張：データ・メッシュの原則によるクラウドへの道のり

数ヶ月前、UberはGoogle Cloud Platform（GCP）上でバッチデータ分析と機械学習プラットフォームのクラウドへの移行を開始した。最近のエンジニアリング・ブログへの投稿で、Uberは重要なデータ・メッシュの原則を取り入れたバッチ・データのクラウド移行に関する追加情報を提供した。

Claudio Masolo 翻訳者 Naoko Koshimura
投稿日 2024年11月1日午前3時30分
設計/アーキテクチャ

Uber、Compressed Log Processor (CLP)を使用してログ処理のコストを169分の1に削減

Uberは先日、Compressed Log Processor（CLP）を使ってログ処理のコストを劇的に削減した方法を公開した。 CLPは、テキストログを可逆圧縮し、解凍せずに検索することができるツールである。 Uberのログデータに対して169倍の圧縮率を達成し、ストレージ、メモリ、ディスク/ネットワーク帯域幅を節約することができた。

Eran Stiller 翻訳者 Ayako Ueno
投稿日 2023年3月22日午前12時5分
Cloud

Amazon Elastic MapReduceがサーバーレス製品として一般向け提供へ

AWSは最近、Amazon Elastic MapReduce（EMR）サーバレスが一般向け提供（GA）となったことを発表した。この製品はサーバレスデプロイメントの選択肢の1つである。これは、クラスタやサーバを設定、管理、スケーリングすることなく、Apache SparkやHiveなどのオープンソースフレームワークを使ってビッグデータ分析アプリケーションを実行する顧客を対象としたものである。

Steef-Jan Wiggers 翻訳者編集部T _
投稿日 2022年6月29日午前12時24分
AIと機械学習、データエンジニアリング

Microsoft、分散マシンラーニングライブラリSynapseMLをオープンソース公開

Microsoftは、分散マシンラーニング(ML)パイプラインの構築と管理を行うオープンソースライブラリのSynapseMLをリリースすると発表した。SyanpseMLはApache Spark上で動作し、複数のデータストアを対象に言語非依存のAPI抽象化を提供するもので、Open Neural Network Exchange(ONNX)など既存のMLテクノロジに統合される。

Anthony Alford 翻訳者 h_yoshida _
投稿日 2022年1月23日午後7時43分
AIと機械学習、データエンジニアリング

Apache Sparkはバージョン3.2でPandas APIを提供

Apache Sparkチームは、Pandas APIを製品の最新の3.2リリースに統合した。この変更で、PySpark実行エンジンを使って、データフレーム処理を単一のマシン内の複数のクラスタまたは複数のプロセッサーに拡張できる。

Sabri Bolkar 翻訳者編集部T _
投稿日 2021年11月14日午後10時49分
Cloud

AWSはAmazon EMR on EKSがカスタマイズ可能イメージをサポートすることを発表

最近、AWSは、Amazon EMR on Amazon Elastic Kubernetes Service (Amazon EKS)においてカスタマイズ可能イメージのサポートを発表した。これにより、顧客は、EKSクラスターでApache Sparkを使って分析アプリケーションを実行するDockerランタイムイメージを変更できる。

Steef-Jan Wiggers 翻訳者編集部T _
投稿日 2021年8月16日午後11時33分
設計/アーキテクチャ

AirbnbがHimejiを構築 - スケーラブルな中央認証システム

Airbnbは最近、スケーラブルな集中認証システムであるHimejiをどのように構築したかについて説明した。Himejiは、信頼できる唯一の情報源として、パーミッションデータを保存し、パーミッションチェックを実行する。シャーディングおよびレプリケートされたインメモリキャッシュを使って、パフォーマンスを向上させ、レイテンシを短縮し、本番環境で約1年間チェックを行ってきた。

Eran Stiller 翻訳者編集部T _
投稿日 2021年6月23日午前2時14分
設計/アーキテクチャ

BBCの分析プラットフォームの失敗に備えた設計

先週のInfoQ Liveで、BBCのプリンシパルシステムエンジニアであるBlanca Garcia-Gil氏が、データプラットフォームの進化する分析のセッションを行った。このセッション中、Garcia-Gil氏は、チームが「既知の未知」と「未知の未知」という2種類の障害にどのように備えて設計したかに焦点を当てた。

Eran Stiller 翻訳者 Shoji Shigeki
投稿日 2021年4月26日午前2時20分
Cloud

GoogleがDatabricksをクラウドプラットフォームに導入

最近、GoogleはDatabricksとのパートナーシップを発表した。フルマネージドのApache Spark製品とデータレイク機能をGoogle Cloudに導入するためである。この製品は、Google CloudでDatabricksとして利用できるようになる。

Steef-Jan Wiggers 翻訳者編集部T _
投稿日 2021年4月26日午前2時16分
AIと機械学習、データエンジニアリング

Spark AI Summit 2020の注目点: Spark 3.0のパフォーマンス改善のイノベーション

初めてオンラインで開催された先頃のSpark AI Summit 2020で、注目点は、Spark SQLの最適化やGPUアクセラレーションなど、Apache Spark 3.0のパフォーマンスを改善するためのイノベーションだった。

Carol McDonald 翻訳者 Shoji Shigeki
投稿日 2021年2月7日午後7時34分
.NET

Microsoftが.NET for Apache Spark 1.0をリリース

Microsoftは先月、.NET for Apache Sparkの最初のメジャーバージョンをリリースした。これは、Apache Sparkプラットフォームで.NET開発できるようにするオープンソースパッケージである。新しいリリースでは、.NET開発者が、.NETユーザ定義関数、Spark SQL、およびMicrosoft HyperspaceやML.NETなどの追加ライブラリを使用してApache Sparkアプリケーションを作成できるようになる。

Arthur Casals 翻訳者編集部T _
投稿日 2021年1月31日午後8時50分
AIと機械学習、データエンジニアリング

Feature Storeで機械学習ライフサイクルを加速

Feature Storeは次世代のMLプラットフォームの中核であり、データサイエンティストがMLアプリケーションの提供を加速できるようにするものである。Mike Del Balso氏とGeoff Sims氏は最近、Spark AI Summit 2020 Conferenceで、フィーチャーストア主導のML開発について講演した。

Srini Penchikala 翻訳者編集部T _
投稿日 2020年8月18日午前5時11分
AIと機械学習、データエンジニアリング

pacheCon 2019基調講演 - Google CloudによるKubernetesを使用したビッグデータ処理の拡張

ApacheCon North AmericaでChristopher Crosbie氏が、"Yet Another Resource Negotiator for Big Data? How Google Cloud is Enhancing Data Lake Processing with Kubernetes"と題した基調講演を行った。講演の中で氏が強調したのは、Kubernetesクラスタ内でApacheソフトウェアを動作させるためのコントロールプレーンを提供する、オープンソースのKubernetesオペレータを開発することによって、Apacheのビッグデータソフトウェアを"クラウドネイティブ"にするという、Googleの取り組みについてだった。

Anthony Alford 翻訳者 h_yoshida _
投稿日 2019年11月14日午後10時48分
設計/アーキテクチャ

Badooのデータエンジニアリング：1日あたり200億のイベントを処理

Badooは現在、1日あたり数十億のイベントを処理する出会い系ソーシャルネットワークであるとデータプラットフォームエンジニアリングリードのVladimir Kazanov氏は説明する。Skills Matterで、彼はこの規模での運用の課題と、Badooがこのデータを処理およびレポートするために使用するツールについて説明した。

Andrew Morgan 翻訳者編集部T _
投稿日 2019年8月28日午前1時44分