Facebookがコンピュータビジョンモデル”Multiscale Vision Transformers”をオープンソースとして公開

原文(投稿日：2021/09/21)へのリンク

Facebook AI Reserch(FAIR)は先頃、Transformerアーキテクチャに基づくコンピュータビジョン用ディープラーニングモデルであるMultiscale Vision Transformer(MViT)を、オープンソースとして公開した。MViTは、内部にいくつかの解像度低減(resolution-reduction)ステージを備えることにより、他のTransformerビジョンモデルをパフォーマンスで凌駕すると同時に、必要な計算能力の低減を実現しており、いくつかのベンチマークにおいては精度の最高値を更新している。

FAIRチームはブログ記事で、そのモデルと実験について説明している。MViTは、標準的なTransformerアテンションスキームを修正して、視覚的な解像度を下げると同時に特徴表現、すなわちチャネルディメンションを向上するプーリング機構を取り入れている。Transformerをベースとする他のコンピュータビジョン(CV)モデルとは対照的に、事前学習を必要とせず、パラメータ数も少ない。これにより、推論時に必要な計算能力も少なくて済む。FAIRは一連の実験を行って、MViTがKinetics、Atomic Visual Actions(AVA)、Charades、Something-Somethingといった一般的な動画理解データセットにおいて、従来のモデルを凌駕するパフォーマンスを示してみせた。研究者らによると、

さらなる開発が必要ではありますが、MViTが実現した進歩は、人間の行動を詳細に認識する能力を大きく向上させる可能性があります。ロボットや自動運転といった、現実的なAIアプリケーションにおいて、これは極めて重要なコンポーネントとなります。さらに、動画認識アーキテクチャにおけるイノベーションは、堅牢で安全、かつ人間中心のAIに不可欠なコンポーネントでもあるのです。

ディープラーニングCVモデルは、その大部分がConvolutional Neural Network(CNN、畳み込みニューラルネットワーク)アーキテクチャに基づいている。動物の視覚野構造にヒントを得たCNNは、チャネルディメンションの増大と画像入力の空間的ディメンションの低減を両立させるための隠れ層(hidden layer)をいくつか持っている。これらの層の出力はフィーチャマップ(feature map)と呼ばれる。ビデオ処理モデルの多くは、入力として複数のイメージフレームを含む、時間-ディメンションにおいて拡張されたCNNをベースとする。自然言語処理(NLP)における昨今のTransformerアーキテクチャの成功を受けて、GoogleのVision Transformer(ViT)など、多くの研究者たちがTranformerの画像処理への適用を模索している。しかしながら、CNNとは違って、これらTransformerベースのアーキテクチャは内部のフィーチャマップの解像度を変更しないため、結果的に非常に多くのパラメータと巨大なデータセットを使用した、大掛かりな事前学習の必要なモデルになっている。

MViTの重要な点は、Transformerのアテンション機構と、CNNベースのモデルの複数解像度フィーチャマップを組み合わせたことだ。MViTではこれを、Transformerアテンションブロックのシーケンスの後にスケールステージを導入することで実現した。スケールステージは、アテンションの前にプーリング処理を適用する、Multi-head Pooling Attention (MHPA) と呼ばれる組み合わせ処理によって、入力の空間ディメンションを4倍縮小する。MHPAからのアウトプットは、マルチレイヤパーセプション(MLP)レイヤによって、2倍のチャネルディメンションにアップサンプリングされる。これら2つのオペレーションを組み合わせることによって、"ステージ間の計算複雑性がほぼ維持される"のである。

研究チームはさまざまなサイズのMViTをトレーニングして、それらのベンチマーク上のパフォーマンスを、"既製の"ViTモデルを基準として比較した。その結果、小規模なMViTモデルについては、Kinetic-400ベータセットにおいて基準モデルを7.5パーセント上回りながら、必要とするFLOPは5.5倍少なかった。Kinetics 600データセットでは、大規模なMViTモデルが、83.4パーセントという精度の新記録を、基準モデルに対して8.4倍少ないパラメータと56.0倍少ないFLOPsで達成している。さらにチームは、Kinetisデータセットで事前学習したモデルをAVA、Charades、Something-Somethingで評価することによる、転移学習についても調査している。これらすべてのシナリオにおいて、MViTは従来モデルを凌駕する。最後にチームは、単純な単一入力フレームを使用することで、MViTが画像認識システムとしても機能することを示している。この場合にもMViTは、他のTransformerモデルよりも少ないパラメータとFLOPで、より高いパフォーマンスを発揮する。

MViTの論文に関するTwitter上の議論では、AI研究者のŁukasz Borchmann氏が、自身が昨年公開したPyramidionという同様のモデルについて言及している。

Pyramidionでは、トレーニング可能なプールはレイヤ間に配置されていたため、エンコーディングプロセス内において段階的なボトルネックとなっていました ... MViTの方法であれば、よりよい結果と複雑性が得られると思います。

MViTのコードと事前学習済モデルが、FAIRのPySlowFast画像理解(video-understanding)コードベースの一部として公開されている。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方