BT

InfoQ ホームページ ニュース Apache Spark 2.0テクニカルプレビュー

Apache Spark 2.0テクニカルプレビュー

ブックマーク

原文(投稿日:2016/05/31)へのリンク

Databricksは、Apache Sparkの最初のリリースの2年後に、上流ブランチ2.0.0-previewを基にした、Apache Spark 2.0のテクニカルプレビューを発表した。このプレビューは、安定性とAPIの両方の観点で本番環境向けではなく、一般提供リリースの前にコミュニティからのフィードバックを集めることを目的にしているリリースである。

この新リリースは、コミュニティからのフィードバックを基にした機能改善に重点的に取り組んでいる。Sparkの開発に関して、2つの主な改善領域がある。

Apache Sparkベースのアプリケーションで最も使われているインタフェースの1つは、SQLです。Spark 2.0は、主としてSQL:2003仕様を基にした、99個のTPC-DSのクエリ全てのサポートを提供している。これだけでも、アプリケーションスタックの最小限の書き直しで、既存のデータロードをSparkバックエンドに移行するのに役立ちます。

2つ目の領域は、プログラミングAPIを基にしている。この新リリースでは、機械学習に大きく重点が置かれている。spark.mllibパッケージが非推奨になり、 DataFramesを基にした新しいspark.mlパッケージが、既存のspark.mllibと同等の機能を提供するようになったら、それを置き換える予定である。DatabricksのエンジニアであるXiangrui Meng氏によれば、これは今後8か月で起こる可能性がある。メーリングリストで説明されているように、spark.mllibは引き続き利用可能だが、メンテナンスモードに入っている。Sparkでサポートされる全ての言語で、機械学習のパイプラインとモデルを永続化できるようになった。 Rで、K-Means、一般化線形モデル (Generalized Linear Models、GLM)単純ベイズ (ナイーブベイズ)、生存回帰 (Survival Regression) がサポートされるようになった。

ScalaとJavaのプログラミング言語向けに、構造化ストリーミングのための抽象化としても機能する 新しいDatasetsクラスで、DataFramesとDatasetsが統一されるようになった。コンパイル時型安全性をサポートしていない言語では、これは適用されず、代わりにDataFramesが引き続き主な抽象化となる。SQLContext、HiveContextは、統一されたSparkSessionで置き換えられるようになった。最後に、新しいAccumulator APIが、より単純な型階層を持ち、プリミティブ型の特化をサポートする。古いAPIは非推奨になっているが、後方互換性のために残されている。

新しい構造化ストリーミングAPIは、プログラマと既存の機械学習アルゴリズムが、複雑さを加えることなしに、バッチでロードされたデータセットを扱うのと同様に、ストリーミングデータセットを管理できるようにすることを目標にしている。また、第2世代のTungstenエンジンでパフォーマンスも改善しており、最大で10倍高速な実行を可能にしている。

テクニカルプレビューリリースは、DataBricksで入手可能である。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

  • 原文が修正されています。翻訳を更新してください

    by 小沢 仁 /

    スパムの可能性があると認識されました。モデレーターが確認し問題がなければ24時間以内に公開します。その際あなたへの通知は行われませんのでご了承ください。

    「spark.mllibパッケージが非推奨になり、」と記述されてありますが、原文は次のように「depreciated」から「replace」に修正されています。
    「The new spark.ml package that is based on DataFrames will replace the existing spark.mllib once it reaches feature parity」

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。