BT

Apache Spark 2.0テクニカルプレビュー

| 作者: Alex Giamas フォローする 10 人のフォロワー , 翻訳者 さとう なおき フォローする 0 人のフォロワー 投稿日 2016年7月19日. 推定読書時間: 3 分 |

原文(投稿日:2016/05/31)へのリンク

Databricksは、Apache Sparkの最初のリリースの2年後に、上流ブランチ2.0.0-previewを基にした、Apache Spark 2.0のテクニカルプレビューを発表した。このプレビューは、安定性とAPIの両方の観点で本番環境向けではなく、一般提供リリースの前にコミュニティからのフィードバックを集めることを目的にしているリリースである。

この新リリースは、コミュニティからのフィードバックを基にした機能改善に重点的に取り組んでいる。Sparkの開発に関して、2つの主な改善領域がある。

Apache Sparkベースのアプリケーションで最も使われているインタフェースの1つは、SQLです。Spark 2.0は、主としてSQL:2003仕様を基にした、99個のTPC-DSのクエリ全てのサポートを提供している。これだけでも、アプリケーションスタックの最小限の書き直しで、既存のデータロードをSparkバックエンドに移行するのに役立ちます。

2つ目の領域は、プログラミングAPIを基にしている。この新リリースでは、機械学習に大きく重点が置かれている。spark.mllibパッケージが非推奨になり、 DataFramesを基にした新しいspark.mlパッケージが、既存のspark.mllibと同等の機能を提供するようになったら、それを置き換える予定である。DatabricksのエンジニアであるXiangrui Meng氏によれば、これは今後8か月で起こる可能性がある。メーリングリストで説明されているように、spark.mllibは引き続き利用可能だが、メンテナンスモードに入っている。Sparkでサポートされる全ての言語で、機械学習のパイプラインとモデルを永続化できるようになった。 Rで、K-Means、一般化線形モデル (Generalized Linear Models、GLM)単純ベイズ (ナイーブベイズ)、生存回帰 (Survival Regression) がサポートされるようになった。

ScalaとJavaのプログラミング言語向けに、構造化ストリーミングのための抽象化としても機能する 新しいDatasetsクラスで、DataFramesとDatasetsが統一されるようになった。コンパイル時型安全性をサポートしていない言語では、これは適用されず、代わりにDataFramesが引き続き主な抽象化となる。SQLContext、HiveContextは、統一されたSparkSessionで置き換えられるようになった。最後に、新しいAccumulator APIが、より単純な型階層を持ち、プリミティブ型の特化をサポートする。古いAPIは非推奨になっているが、後方互換性のために残されている。

新しい構造化ストリーミングAPIは、プログラマと既存の機械学習アルゴリズムが、複雑さを加えることなしに、バッチでロードされたデータセットを扱うのと同様に、ストリーミングデータセットを管理できるようにすることを目標にしている。また、第2世代のTungstenエンジンでパフォーマンスも改善しており、最大で10倍高速な実行を可能にしている。

テクニカルプレビューリリースは、DataBricksで入手可能である。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

原文が修正されています。翻訳を更新してください by 小沢 仁

「spark.mllibパッケージが非推奨になり、」と記述されてありますが、原文は次のように「depreciated」から「replace」に修正されています。
「The new spark.ml package that is based on DataFrames will replace the existing spark.mllib once it reaches feature parity」

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

1 ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT