BT

InfoQ ホームページ ニュース IntelはApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化

IntelはApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化

ブックマーク

原文(投稿日:2017/01/13)へのリンク

IntelApache Spark上で動作する分散型ディープラーニングライブラリであるBigDLをオープンソース化した。既存のSparkクラスタを活用して、ディープラーニングの計算を実行し、Hadoopに格納された大量のデータセットからのデータロードを容易にする。

テストにより、Xeonサーバで実行したときの性能が、他のオープンソースフレームワークであるCaffeTorchTensorFlowと比較して大きく向上した。このスピードは主流のGPUに匹敵し、BigDLは数十台のXeonサーバまで拡張することができる。

BigDLライブラリはSparkバージョン1.5、1.6、2.0をサポートし、既存のSparkベースのプログラムにディープラーニングを組み込むことができる。それはSpark RDDをBigDL DataSetに変換するメソッドを含み、直接Spark ML Pipelinesと共に使用することができる。

モデルのトレーニングのために、BigDLは単一のSparkタスクで実行される同期ミニバッチSGD (Stochastic Gradient Descent)を複数のエグゼキュータに適用する。 各実行プログラムは、マルチスレッドエンジンを実行し、マイクロバッチデータの一部を処理する。現在のバージョンでは、すべてのトレーニングデータと検証データがメモリにロードされる。

BigDLはScalaで実装され、Torchをモデルにしている。Torchと同様に、BigDLはIntel MKLライブラリを使って計算するTensorクラスを提供する。Intel MKLは、Math Kernel Libraryの略であるが、FFT(高速フーリエ変換)から行列乗算まで、最適化されたルーチン処理のセットを含むライブラリからなる。それは、ディープラーニングモデルのトレーニングに頻繁に使用される。Torchを参考にした他の概念はModuleであり、Torchのnnパッケージにインスピレーションを受けている。Moduleは個別のニューラルネットワーク層であるTableCriterionを表す。

BigDLはAWS EC2 imageイメージと、畳み込みニューラルネットワークを使用したテキスト分類画像分類、予測計算のためにTorchやCaffeで事前にトレーニングされたモデルをSparkに読み込む方法を提供する。コミュニティからの主な要求は、PythonのサポートとMKL-DNN、MKLのディープラーニング拡張である。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。