BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース IBMのFabric for Deep Learningに関するWatsonチーフアーキテクトのQ&A

IBMのFabric for Deep Learningに関するWatsonチーフアーキテクトのQ&A

原文(投稿日:2018/04/30)へのリンク

読者へのメモ:あなたのリクエストに応じて、ノイズを減らす機能を開発しました。大切な情報を見逃さないよう、お気に入りのトピックを選択して、メールとウェブで通知をもらいましょう新機能についてさらに学びましょう

IBMが、最近、Kubernetes上にあるマイクロサービスベースのプラットフォーム、FfDLを発表した。

  • ディープラーニングモデルのトレーニング
  • オープンディープラーニングAPI
  • 共通インスツルメンテーション
  • マルチクラウドにおけるディープラーニングのホスティング

CPUやGPUを構成する、基本的なハードウェアの詳細を不必要にさらすことなく、FfDLは、ディープラーニングプラットフォーム固有の様々な設定のために、Kubernetes、Helm Charts、Microservicesを活用する。

InfoQは、FfDLに関して、WatsonのチーフアーキテクトであるRuchir Puri氏に会って話を聞いた。

InfoQ:ディープラーニングとKubernetesプラットフォームに関する様々な活動があります。ディープラーニングとKubernetesの間の全般的な相乗効果について説明してもらえますか?

Ru Puri氏:分散ディープラーニングにとって、スケーラビリティ、パラレリズム、レジリエンシ、オンデマンドスケジューリング、バッチジョブの終了は、基本的なプラットフォームから必要とされる重要な特徴です。Kubernetesは、これらすべてとさらに多くのことを提供し、それため、FfDL、Kubeflow、PaddlePaddle等のKubernetes上のディープラーニングプラットフォームが増加しています。

デバイスドライバを使って、NVIDIA GPUのためにKubernetesが今までサポートを進化させてきたことが、もう1つの理由です。GPUリソースは高価なので、データサイエンティストのグループにとって、共有されているGPUリソースの管理されたクラスタを持つことは、道理にかなっています。1つのディープラーニングを実践する人にとってさえ、Kubernetesは、スケジューリングとジョブ管理を扱い、自分のタスクに自由に集中できるようになります。

多数の機械学習のジョブがデータと密接に動作しなければならないならば、持続可能なストレージ、CSIのサポート等の処理状態を持つセットに影響するKubernetesコミュニティで起きている作業は、ここに強く関係します。

InfoQ:MLプラットフォーム自体は、Helm chartsを経由してインストールされます。それでは、FfDLが提供する付加価値は何ですか?

 

Puri氏:Helm charts経由のFfDLのインスールとデプロイは、Kubernetesの動作に慣れているDevOpsの仲間たちにアピールします。FfDLコントロールプレーンマイクロサービスは、ポッドとしてデプロイされ、マシンを効率的にできるGPUとCPUのクラスタを管理するKubernetesを強化します。そして、マイクロサービスがクラッシュした時に再起動し、マイクロサービスの健全さを報告します。また、私たちは、S3互換ストレージのサポートを提供し、分散ディープラーニングへの多様なフレームワークアプローチをサポートします。

AI開発者とデータサイエンティストは、ディープラーニングジョブスケジューリング、ロギングとダッシュボードのモニタリングを統合し、ディープラーニングトレーニングに1つのプラットフォームを使います。ダッシュボードは、フレームワークの認知できない方法で、正確性、均質性、重さ、バイアス等、ステップ毎の全ての評価測定基準を表示します。

FfDLは、システムオペレータに隔離したAPIを提供します。そのため、DL領域の急激な革新を要求しながら、サービスはモジュラ方式で成長して進化し、コンポーネントは絶え間なく進化できます。

FfDLは、ディープラーニングフレームワークの先駆者にAPIコラボレーションを開発するためのプラットフォームを提供します。そのため、リッチなディープラーニングエコシステムへ、もっとあらゆる場所にアクセスできるフレームワークを作ることができます。

AIコンポーネント、ワークフロー、アプリケーションの開発に関心を持っているソフトウェアエンジニアには、FfDLは、共同開発のためのオープンフレームワークを提供します。認められたAPIとコンポーネントは、一般的なオープンソースのAI エコシステムと同様に、業界用のIBM AI Studioに適応される可能性があります。

InfoQ:開発者とユーザの視点から、KubeflowとFfDLを比較対照できますか?

Puri氏:FfDLは、IBM Watson StudioのDeep Learning as a Service技術の中心です。FfDLは、オープンソース化され、GitHubで利用できます。また、開発者のためのIBM Codeで利用可能なModel Asset eXchange (MAX) と Adversarial Robustness Tool (ART)、その他と共に、IBM Spark Technology Center上に構築されたIBMのCenter for Open-Source Data and AI Technologiesの重要な部分を形作ります。FfDLは、GoogleのKubeflow、BaiduのPaddlePaddleのような、この空間にある他のオープンソースフレームワークを補完する能力を持っていると私たちは信じています。IBMは、AIへのアクセスを民主化する可能性を持つ様々な補完技術について、オープンソースコミュニティに貢献するリーダーです。

InfoQ:ドキュメントでは、オプジョクトのストレージとしてAmazon S3を指定し、クラウドを特定して、提案しているように見えます。特定のクラウドに依存しているかどうかを明らかにできますか?

Puri氏:IBM Cloud Object Storageを含め、S3 API互換のストレージは動作します。私たちは、NFS等のサポートを追加して、ストレージストーリをさらに包括的にすることに取り組んでいます。

さらに、私たちは、ストレージストーリ標準をベースにするため、CSIインタフェースのKubernetesコミュニティサポートをしっかりと監視しています。

 

InfoQ:FfDLは、さらにKubernetesレイヤを追加して複雑にすることなく、どのようにML/データサイエンティストや開発者の日常生活を簡単にしますか?

Puri氏:ディーブラーニングとして知られている、ディープニューラルネットワークのトレーニングは、現在、非常に複雑で、計算が増大しています。そのため、ソフトウェア、ドライバ、コンピュータ、メモリ、ネットワーク、ストレージリソースの正しい組み合わせによる、高度に調整されたシステムが要求されます。データサイエンティストとAI開発者は、最も得意なことをすることに集中すべきです。データとその洗練への集中、これらの大規模データセットを超えたニューラルネットワークモデルのトレーニング、そして、最新モデルの生成です。

FfDLは、これらの関心を抽象化し、サイエンティストがクラウドで規模を拡大し、ディープラーニングフレームワークを選択して、トレーニングの仕事を実行できるスタックを提供します。FfDLは、ディープラーニングフレームワークを修正せず、そして、最小限のモデルコードの変更か、まったく変更せずに、モデルコード、レジリエンス、スケーラビリティ、マルチテナンシ、セキュリティを提供するために構築されています。

 

FfDLは、急激に進化しているAIインフラストラクチャの大騒動からデータサイエンティストを、少なくともある程度、隔離するでしょう。データサイエンティストは、変更があるたびに、システムを書き換えなくても、クラスタが進化して改良され、よりハイレベルな機能が追加されることが期待できます。

InfoQ:どのように他のMLツールキットのサポートがFfDLに統合されるのか、もっと技術的な詳細を教えてもらえますか? FfDLのコミュニティサポートについても話してもらえますか?

Puri氏:MLツールキットのDockerイメージを持ってきて、プラットフォームにMLツールキッドが含まれていることを伝えるために、FfDLライフサイクル管理(LCM)構成ファイルにポインタを追加します。分散トレーニングのサポートを追加している場合、MLエンジンがサポートされるように分散アーキテクチャを保証するために、追加のコードが必要です。例えば、PyTorchはMPIアプローチを好みますが、Tensorflowは、デフォルトで分散学習へのパラメータサーバアプローチを好みます。

私たちは、自分たちが提供するもののメリットに基づき、やがてコミニュニティが進化することを期待します。私たちは、コラボレーションの機会に応じて、主要な人たちに連絡します。さらに、IBMは大学と強い関係を持ち、MIT-IBM Watson AI Labとして、ジョイントリサーチ活動を行い、適切な場所で、AIエンジニアリングのプラットフォームとして、FfDLを使っています。全般的に、オープンソースコミュニティは、AIエコシステムへ追加されたものがあることを喜び、ずっと継続する大きな価値を提供するために、この進化に共に取り組むことを、私たちは望んでいます。

さらなる技術の詳細は、FfDL Wikiで参照しよう。

 
 

Rate this Article

Adoption Stage
Style
 
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT