BT

Spark Summit EUのハイライト - TensorFlow, 構造化ストリーミング,GPUハードウェアアクセラレーション

| 作者: Alexandre Rodrigues フォローする 0 人のフォロワー , 翻訳者 吉田 英人 フォローする 0 人のフォロワー 投稿日 2016年12月19日. 推定読書時間: 2 分 |

原文(投稿日:2016/11/13)へのリンク

Apache SparkとディープラーニングライブラリTensorFlowとの統合,構造化ストリーミング(Structured Streaming)とGPUハードウェアアクセラレーションを使用したオンラインラーニング – この2つが,先週ブリュッセルで開催されたSpark Summit EU 2016のハイライトだ。

初日にフィーチャーされたのは,Spark 2.0で導入されたイノベーションの紹介だ。APIが簡略化されてDataFramesとDatasets用の単一インターフェースになり,ビッグデータアプリケーションの開発が容易になった。第2世代Tungstenエンジンでは,データ処理クエリにMPPデータベースクエリの考え方が採用され,処理がさらにハードウェアに近くなった – 生成されるバイトコードでは中間データの保存にCPUレジスタが活用されるようになり,メモリ上のデータはスペース効率の高いコラム思考の形式で保持されるようになった。

使用されるAPIに関わらず,データ操作グラフはCatalyst Optimizerによって最適化される。Catalyst Optimizerはクラスタを越えた計算の実行プランを作成し,各オペレーション用に最適化されたコードを出力する。

カンファレンスでは,ストリーミングのための新しい高レベルAPIである構造化ストリーミングのアルファ版も報告された。このAPIはSparkのDatasetおよびDataFrame APIに統合されており,SparkバッチAPIを使用するのと同じ方法で,外部システムとのデータ読み込みと書き込み操作を双方向で行なうことができる。また,ストリーミング処理をバッチ処理に変換することで,強力な一貫性を提供すると同時に,ストレージシステム(HDFSやAWS S3のような)とのトランザクションの統合を実現する。

2日目にはDatabricks CEOのAli Ghodsi氏が,MLアルゴリズムのデータ作成と計算インフラストラクチャ管理を容易にするという側面から,AIを民主化するツールとしてのSparkを描いてみせた。今年の初めには,ディープラーニングライブラリのTensorFlowがSpark上で動作するように統合されたTensorFramesというライブラリが登場している。このライブラリでは,DataFramesとTensorFlowランタイム間のデータ転送が可能だ。

データサイエンストラックには,構造化ストリーミングが実現するマシンラーニングのレジリエンスによって,オンラインラーニングが可能になることを取り上げたセッションもあった – これが事実ならば,膨大な数のオフラインジョブによるマシントレーニングを必要としない,入力データによるマシンラーニングモデルの更新が可能になる。

最後に注目されたのは,DatabricksプラットフォームのGPUサポートと,より多くのディープラーニングライブラリとの統合に関する発表だ。GPUサポートはCUDAなどのハードウェアライブラリを介して行われる。それがDatabricksに予め組み込まれることで,クラスタセットアップのコストを低減するということだ。

 
 

この記事を評価

関連性
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT