Xipeng Shen博士によるディープラーニングのトレーニング時間を短縮する新技術

原文(投稿日：2019/05/14へのリンク

ノースカロライナ州立大学の研究者らが先日の35th IEEE International Conference on Data Engineering (ICDE 2019)で、ディープニューラルネットワークのトレーニング時間を最大69％短縮可能な新手法について論文を発表した。

Xipeng Shen博士と院生のLin Ning、Hui Guan両氏は、ニューラルネットワーク層に入力されるデータ値の類似性を利用した、Adaptive Deep Reuse(ADR)と呼ばれる手法を開発した。ニューラルネットワークのトレーニングにおける基本的な操作のひとつに、入力データのベクトルと重み行列との乗算がある。トレーニング中、処理能力の大部分を消費するのがこの乗算だ。

ADRの中核となっている見識は、トレーニングプロセスにおいて、すべてのユニークな入力ベクトルに対してベクトル行列積を再計算する代わりに、入力へのクラスタリングの適用と、類似の入力ベクトルに対する単一の近似積結果の再利用が可能である、というものだ。これにより計算の精度は低下するが、トレーニングの初期段階では、"後期段階よりも近似誤差に対する感度が低い"。後続の段階で近似誤差を削減できるように、クラスタリングパラメータを適応させればよいのだ。さらに、このクラスタリングと近似は、ニューラルネットワークの入力だけでなく、ネットワークの隠れ層(hidden layer)内のアクティベーションマップにも適用できる。

チームは、画像分類において一般的な畳み込みニューラルネットワーク(CNN)アーキテクチャである CifarNet、AlexNet、VGG-19の３つで、トレーニングにADRを使用した評価を行った。その結果、CifarNetで63パーセント、VGG-19で68パーセント、AlexNetで69パーセント、それぞれネットワークのトレーニング時間を短縮することができた。

今回の成果について、Shen博士に話を聞いた。

InfoQ: 新しいテクニックのインスピレーション、あるいは"気付きの瞬間(aha moment)"は何でしたか？ADRを開発するまで、他にどのようなアプローチを試したのでしょうか？

Xipeng Shen: このアイデアは、私たちが持っていた長期的なビジョンから生まれたものです。世の中には、その時点では必要のないような計算が溢れています。これは一般的なビジョンなのですが、ディープニューラルネットワークに重点を置くことで、私たちは、このような冗長な計算を見つけて、それを避けることができないか、ずっと考えていました。この点に至るまでには、いくつかの方法を試しました。その中で、フィルタの重みがまばらになることに注目しました。実は、その多くはゼロなのです。これを調べて、ゼロでの乗算を回避しようと試みたのですが、困難でした。次に、アクティベーションマップまたは入力が、別の角度になる可能性のあることに気付きました。私たちはまず、入力に注目しました - 多くのイメージが、類似あるいは同一のピクセルをたくさん持っている、と想定したのです。大学院生が現実のデータセットを調査して、それが事実であることを確認しました。次に私たちは考えたのは、これが中間層にも当てはまるかどうか、ということでした。そして、そのとおりでした。そうなると、パズルの最後の１ピースは、いかに効率的に再利用の機会を見つけて、実際に時間節約に結び付けるか、ということでした。それが分かったことによって、適応性の高い、大幅な再利用が可能になったのです。

InfoQ: 実装にはTensorFlowが使用されています。なぜ他のフレームワークではなく、TensorFlowだったのでしょうか？ADRは他のフレームワークにも適用できますか？

Shen: TensorFlowを選んだのは、私たちが慣れていたからです。それに、非常にポピュラーなフレームワークでもあります。手法自体は非常に基本的で、行列とベクトルの乗算の低レベル演算を高速化しようとするものですから、プラットフォームに関わらず機能します。

InfoQ: このテクニックは推論時にも、トレーニング時にも適用が可能です。モバイルやIoTのような、計算能力が制限された環境での推論に対しても、価値のある強化だと思いますか？

Shen: 6月に開催されるInternational Conference on Supercomputing (ICS 2019)で発表する予定の論文があります。これは推論中に、この手法を使用することに関するものです。その論文の中で、私たちは、ADRで推論を2倍速くできることを示しました。サーバと組み込みデバイスの両方で実施していますので、IoTのような組み込みデバイスで使用可能であることは証明済みです。

InfoQ: このテクニックは、RNNやTransformer/Attentionネットワークなど、他のディープニューラルネットワークアーキテクチャでも有効ですか？

Shen: はい、そうです。LSTM上での使用について検討していますが、メリットを定量的に決定するための実験はまだ行っていません。

InfoQ: 今後の関連作業について説明して頂けますか？

Shen: 考えられる方向はいくつかあります。私たちはアクティベーションマップと入力を検討しましたが、その他にも再利用の機会が、ディープニューラルネットワークに隠れているかも知れません。

CNN以外にも、他の種類のネットワークがあります。LSTMのような他の種類のネットワークにおけるメリットを定量化する必要があります。他の研究者からは、このアイデアを彼らのシステムに適用する可能性について尋ねられています。その場合、パターンが異なる可能性があるため、新たな課題や、イノベーションの新たな機会が生じる可能性もあります。しかし、それが私たちの目標なのです。他のネットワークにも、このテクニックを一般化したいと思っています。

分散トレーニングに適用することも可能です。モデルの並列化のためにノード間でデータを再利用することなど、興味深い課題があります。

論文は、ICDE 2019ウェブサイトで読むことができる。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方