Googleは兆パラメータのAI言語モデルSwitch Transformerをオープンソース化

原文(投稿日：2021/02/16)へのリンク

Google Brainの研究者は、自然言語処理 (NLP) AIモデルであるSwitch Transformerをオープンソース化した。このモデルは、最大1.6兆のパラメータにスケールアップし、T5 NLPモデルと比較して最大7倍のトレーニング時間を改善し、同等の精度を実現する。

チームは、arXivで公開された論文でモデルについて説明した。Switch Transformerは、混合エキスパート (mixture-of-experts: MoE) パラダイムを使用して、複数のTransformer Attention ブロックを組み合わせる。モデルのサブセットのみが特定の入力の処理に使用されるため、計算コストを一定に保ちながら、モデルパラメータの数を増やすことができる。Googleの最先端のT5 NLPモデルと比較して、Switch Transformerのベースラインバージョンは、トレーニング時間の 1/7 でターゲットとなるトレーニング前の Perplexity メトリックを達成できた。1.6兆のパラメータバージョンは、半分のデータでトレーニングを行ったにもかかわらず、Perplexity メトリックでT5-XXLを上回り、ダウンストリームNLPタスクで同等以上のパフォーマンスを発揮する。

Transformerアーキテクチャは、NLP研究に使用される主要な深層学習モデルになった。最近の取り組みは、パラメータの数で測定されるこれらのモデルのサイズを大きくすることに焦点を当てており、結果は人間のパフォーマンスを超える可能性がある。GPT-3モデルの作成者であるOpenAiのチームは、べき乗則の関係に従って、NLPのパフォーマンスが実際にパラメータの数に比例することを発見した。Switch Transformerの開発において、Google Brainチームは、トレーニング例ごとのFLOPSの数を一定に保ち、「比較的少量のデータ」でトレーニングしながら、パラメータ数を最大化しようとした。

これを達成するために、モデルは混合エキスパート（MoE）スキームを使用する。MoEは、深層学習のパイオニアでありSwitch Transformerの共同作成者であるGeoff Hinton氏を含む研究チームによって、1991年に開発された。その後、トロント大学で、そして現在はGoogle Brainで開発された。2017年、Hinton氏とGoogle Brainの同僚は、MoEを使用して、1370億パラメータのリカレント (再帰型) ニューラルネットワーク (RNN) に基づくNLPモデルを作成し、言語モデリングと機械翻訳ベンチマークで最先端の結果を達成した。

Switch Transformerは、Switch Routingと呼ばれる修正MoEアルゴリズムを使用する。複数のエキスパートをアクティブにしてそれらの出力を組み合わせる代わりに、Switch Routingは特定の入力を処理する単一のエキスパートを選択する。これにより、ルーティングの計算が簡素化され、個々のエキスパートモデルが異なるGPUデバイスでホストされるため、通信コストが削減される。ただし、このスキームの欠点の1つは、「ハード」な切り替えの決定により、特に精度の低い演算を使用する場合に、トレーニングが不安定になる可能性が高くなることだ。チームは、モデルパラメータを初期化するためのスケール係数を減らすことにより、これを軽減した。

チームは、Mesh-TensorFlow (MTF) を使用して、データとモデルの並列処理を利用してモデルをトレーニングした。さまざまなスケールでのアーキテクチャのパフォーマンスを調査するために、チームは2億2300万パラメータから1.6兆パラメータまで、さまざまなサイズのモデルをトレーニングし、「スケーリングの最も効率的なディメンション (次元)」はエキスパートの数であることがわかった。事前トレーニングおよびダウンストリームNLPタスクでのモデルのパフォーマンスを、サンプルごとに同様のFLOPを必要とするT5モデルと比較した。ベースラインサイズのSwitch Transformerモデルは、GLUE、SuperGLUE、およびSQuADベンチマークでT5を上回り、トレーニング前の時間で7倍のスピードアップを達成した。1.6兆パラメータと2048のエキスパートを備えた大規模なSwitch Transformerは、トレーニング前の Perplexity において130億パラメータのT5モデルを上回り、1/4の時間で終了した。

Redditのディスカッションで、コメント提供者は、Google BrainチームがモデルのパフォーマンスをGPT-3と比較しなかったことを指摘した。これは、OpenAIの公開結果に情報が不足しているためだと推測している。別のコメント投稿者は次のように述べている:

ハードウェア要件を犠牲にしてはいますが、精度が向上するまでの時間は驚くべきものです。これらすべてはGoogleにとって問題ではありませんが、少なくともこれまでのところ、OpenAIがこれらのモデルにあまり熱心ではない理由がわかります。

GoogleはSwitch Transformerの事前トレーニング済みモデルの重みをリリースしていないが、実装コードはGitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

VS Code 1.123、サプライチェーン攻撃を抑制するため、拡張機能の更新を2時間遅らせる機能を追加

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

AIがソフトウェアエンジニアリング・パフォーマンスを増幅、2025年DORAレポート

Kubescape 4.0、Kubernetesに実行時セキュリティとAIエージェントスキャン機能を追加

Amazon CloudWatch、OpenTelemetryメトリクス対応をプレビュー公開

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027