少ないパラメータでTransformerの性能を凌駕するGoogleのGated Multi-Layer Perceptron

原文(投稿日：2021/10/19)へのリンク

Google Brain所属の研究者らが、基本的なMLP(multi-layer perceptron、多層パーセプトロン)のみを含むディープラーニングモデルをGated Multi-Layer Perceptron(gMLP)として発表した。Transformerモデルよりも少ないパラメータを使用して、自然言語処理(NLP)タスクではパフォーマンスで凌駕し、コンピュータビジョン(CV)タスクでも同等の精度を実現している。

モデルと実験に関しては、arXivで公開された論文に説明されている。Transformerのセルフアテンション(self-attention)機構の必要性を調査するため、研究チームは、ゲーティングと組み合わせた基本的なMLPレイヤのみを使用してgMLPを設計し、画像と言語に関するタスクのパフォーマンスを従来のTransformerによる実装と比較した。その結果、画像分類タスクImageNetでは、Vision Transformers(ViT)の81.8に匹敵する81.6という精度を、より少ないパラメータとFLOPsで達成した。NLPタスクに関しては、事前トレーニングのパープレキシティ(perplexity)においてBERTを越えるとともに、SQuADベンチマークでも、BERTの81.8に対して85.4というF1スコアを、BERTよりも少ないパラメータで実現している。

Googleの研究者たちが2017年に初めて発表したTransformerアーキテクチャは、OpenAIのGPT-3を筆頭に、NLPディープラーニングモデルのトップデザインになっている。視覚的なタスクでも優れた成果を上げ始めており、特にGoogleのViTは先頃、ImegaeNetベンチマークの新記録を達成している。Transformerの大きな特徴は、シーケンス要素間にある空間的相互作用を学習する、マルチヘッドのセルフアテンション機構にあるが、研究者たちは現在、そのメカニズムがTransformerのハイパフォーマンスに必要なのかという疑問を持っている。

完全に接続されたレイヤないしパーセプトロンによる単純な構成を持ったMLPが最初に開発されたのは1958年のことであり、ニューラルネットワークでは"古典的"形式と見なされている。gMLPの中核となるイノベーションは、シーケンス要素間の相互作用を捕捉するSpatial Gating Unit(SGU)である。これはTranformerのアテンションと同じ役割を果たすのだが、要素の位置に関するエンコーディングを必要とはしない。代わりに入力の要素毎の乗算を、同じ入力の線形投影を使って実行するのだ。トレーニングの安定性のためには、ゲートのウェイトを１に初期化して、ゲートを事実上パススルーにしておく必要がある、ということを研究者たちは発見した。このウェイトがトレーニングの過程において更新されることで、シーケンス要素間の空間的相互作用を学習するのだ。

一連の実験の中でチームは、さまざまなサイズのgMLPをトレーニングし、CVおよびNLPベンチマークを使って、それらのパフォーマンスを、同じようなサイズのTranformerベースのモデルと比較した。ImageNetベンチマークではViTの他、最近公開されたMLPベースのCVモデルのいくつかとパフォーマンス比較を行った。ViTもMLPモデルも、最先端の畳み込みニューラルネットワーク(CNN)モデルのパフォーマンスには及ばないが、gMLPのパフォーマンスはTransformerに匹敵すると同時に、すべてのMLPモデルを凌駕している。NLPのパフォーマンスでは、BERTを始めとするMLPベースの言語モデルを比較の対象とした。その結果、十分にスケーリングされたgMLPモデルのパフォーマンスはBERTと同等だったが、"若干のセルフアテンション"を追加することにより、すべてのタスクにおいて、より少ないパラメータでBERTのパフォーマンスを上回ることに成功した。

最近では、さまざまな組織の研究者たちが、画像や言語を扱うMLPベースモデルの研究に取り組んでいる。今年始めには、Google Brainの別チームが、MLPレイヤを使ってイメージパッチの特徴を"ミックス"することで空間関係を学習するCVモデルのMLP-Mixerをオープンソースとして公開した。Facebook AI Researchは、ViTにヒントを得てセルフアテンションを単純なMLPレイヤに置き換えたビジョンモデルのResidual Multi-Layer Perceptrons(ResMLP)アーキテクチャを新たに開発した。学術界では、オックスフォード大学の研究者たちが同様のモデルをオープンソースとして公開した他、清華大学のチームも、CNNレイヤをMLPレイヤに再パラメータ化することで推論を高速化したRepMLPをオープンソースで提供している。

Redditでの議論では、あるユーザが、gMLPのトレーニングの安定性向上に向けたGooleの活動に対して、次のようにコメントしている。

論文では、特にトレーニングの開始時における安定性と、その向上のためにチームが使用した方法に関して、多くの意見が述べられています。安定性/堅牢静をモデルの性能指数に含めることに、何か有用性があるのでしょうか？

GoogleはgMLPのコードをリリースしていないが、論文の読者の一部が自身の実装をオープンソースとして公開している。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco