Sparkがソートパフォーマンスの新記録を達成

原文(投稿日：2014/11/26)へのリンク

Apache Sparkの開発者が創立したDatabricksが，先日のDaytona GraySortコンテストで，Sparkプロセッシングエンジンを使って新記録を達成した。Daytona GraySortコンテストは，100テラバイトのデータをソートする速度を計測する，サードパーティによるベンチマークである。Databricksは公式記録として，206台のクラスタ上で4,27テラバイト/分というスループットを公表している。これはHadoop MapReduceを使用するYahoo!が提示したこれまでの記録と比較して，10分の1のマシンで，3倍の性能向上を達成したことになる。

Daytona GraySortコンテストへの提出資料を公開したブログ記事の中で同社は，最近になってSparkに導入され，これほど大きなスループットを達成可能にした技術的改善のいくつかを取り上げている。

Spark 1.1ではソートベース・シャッフルと呼ばれる，新しいシャッフル実装が導入された。これまでのシャッフル実装では，シャッフルのパーティション毎にインメモリバッファが必要だったため，これが大きなメモリオーバーヘッドを生み出していた。しかし新しいソートベースシャッフルでは，一度に必要なメモリバッファはひとつだけでよい。これによってメモリ使用量が大幅に削減され，同一条件のハードウェア上で，より多くのタスクが並行動作可能になったのだ。

新しいシャッフルアルゴリズムに加えて，ネットワークモジュールがNettyのネイティブEpollソケットトランスポートに改訂された。メモリプール管理を独自に行うことで，JVMのメモリアロケータをバイパスし，ガベージコレクションの影響を低減する。新しいネットワークモジュールは外部のシャッフルサービス構築でも利用され，メインのSpark実行体がガベージコレクションで停止している間でも，シャッフルファイルの提供が可能になった。

最後に，Spark 1.1では，デフォルトのソートアルゴリズムとしてTimSortが導入された。TimSortはマージソートとインサートソートから派生したもので，現実のデータセットの大部分，中でも部分的にソートされたデータセットに対して，クイックソートよりもパフォーマンスに優れている。

これらすべての改善によってSparkクラスタは，Mapフェーズでは3GB/ノードのI/Oアクティビティ，Reduceフェーズでは10Gbpsのイーサネットリンクを飽和させる1.1GB/秒/ノードのネットワークアクティビティを維持することが可能になっている。

SparkはUCバークレーのAMPLabでの研究から生まれた，高度な実行エンジンである。Hadoop MapReduceに比較してプログラムを，データがディスク上にある場合は10倍，メモリ上に存在する場合は100倍の速度で実行することができる。SparkはJava，Scala，またはPythonで記述されたプログラムをサポートする。データ処理フローは，馴染みの深い関数型プログラミングで構築可能だ。

Sparkは，Hadoopの次世代の実行プラットフォームとして，大きな注目を集めるだけでなく，MapReduceを置き換えとして見る声も一部にはある。２月にはApacheのトップレベルプロジェクトに昇格し，それ以降，ClouderaやHortonworks，MapRのHadoopディストリビューションなどに含まれている。さらに最近では，Hortonworksが，Stinger.nextイニシアティブの一環として，Spark上でのHive実行をサポートする予定だと発表している。

Databricksは2013年に，Sparkとその関連プロジェクトをサポートするコマーシャルエンティティとして設立された。関連プロジェクトとしてはストリームプロセッシングをサポートするSpark Streaming，HiveデータをクエリするSpark SQL，機械学習用のMLibなどがある。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Hadoop です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco