99.9％少ないパラメータでGPT-3パフォーマンスを上回るAIのトレーニング方法

原文(投稿日：2020/10/06)へのリンク

LMU Munichの科学者チームは、自然言語処理 (NLP) モデルの深層学習トレーニング手法であるPattern-Exploiting Training (PET)を開発した。チームはPETを使用して、SuperGLUEベンチマークで1750億パラメータのGPT-3の3パーセント以上となる2億2300万パラメータを使用してTransformerNLPモデルをトレーニングした。

博士課程の学生であるTimo Schick氏と大学の情報言語処理センタのHinrich Schütze教授は、arXivに掲載された論文で彼らのプロセスと実験結果について説明した。PETは、事前にトレーニングされた言語モデルを微調整するための手法であり、ラベルのない例から追加の「ソフトラベルの」トレーニングデータを生成する。これは、微調整のためのラベル付きの例がほとんどないNLPベンチマークなど、「Few-Shot」シナリオでモデルのパフォーマンスを向上させるのに役立つ。研究者はPETを使用して、ALBERT Transformerモデルを微調整し、GPT-3の71.8と比較して、SuperGLUEベンチマークで76.8の平均スコアを達成した。

教師あり機械学習では、コンピュータビジョンやNLPなどのタスクを適切に実行するために、大規模なデータセットが必要になることがよくある。ただし、これらの大規模なデータセットにラベルを付けるには、人間の作業者が画像内のオブジェクトを手動で識別したり、文の感情を評価したりする必要があるため、時間と費用がかかる可能性がある。NLPタスクの場合、多くの研究者は、Wikipediaのコンテンツなど、ラベルのない大規模なデータセットでの自己教師あり学習を通して大規模なモデルが事前トレーニングされる転移学習に目を向けている。モデルが事前にトレーニングされると、はるかに小さいラベル付きデータセットで教師あり学習を使用して、感情分析などの特定のタスクに合わせてモデルを「微調整」できる。ほとんどの最先端のNLPの結果は、事前にトレーニングされたTransformerモデルを微調整することによって実現される。

Few-Shot学習は、新しいタスクに一般化するモデルの能力をテストする微調整に関連するシナリオである。そのタスクの例はごくわずかで、多くの場合、100未満、場合によっては1つ (one-shot）、またはない（zero-shot）。OpenAIの1750億パラメータのGPT-3は、事前にトレーニングされた大規模なモデルが、モデルのパラメータを微調整することなく、Few-Shotの学習シナリオでうまく機能することを示した。代わりに、モデルの内部状態または「コンテキスト」をテキストの例とともにタスクのテキストの説明で更新するだけで、32の例だけで「ほぼ最先端の結果」を生成するのに十分だった。ただし、Schick氏とSchütze氏は、この戦略のいくつかの欠点を指摘している。コンテキストサイズの制限により、使用できる例の数が制限され、さらに重要なことに「多くの実世界シナリオで使用しようとすればするほど、大きいモデルに依存しています。」

より小さなモデルで同様のパフォーマンスを達成するために、研究者は、Few-Shotの例から追加のトレーニングデータを生成する半教師ありトレーニング手法であるPETを開発した。PETは、最初に入力例をcloze-styleのフレーズに変換することによって機能する。これらは、言語モデルのアンサンブルを微調整するために使用され、次に、ラベルのない大きなデータセットに注釈を付けて「ソフトラベルの付いた」データセットを生成するために使用される。次に、最終的なモデルがソフトラベルされたデータで微調整される。チームは、SuperGLUEデータセットにPETを適用して、FewGLUEと呼ばれるソフトラベルのデータセットを作成した。これを使用して、SuperGLUEベンチマークでGPT-3のFew-Shotのパフォーマンスを超えるALBERTモデルを微調整した。

筆頭著者のSchick氏は、Redditでのディスカッションで、この作業に関するいくつかの質問に答えた。コメント提供者は、PETはNLPベンチマークでより良い結果をもたらしたが、GPT-3はより柔軟に見えたと述べた。Shickはそれに同意した:

GPT-3は確かにテキストの長いシーケンス (要約や機械翻訳など) を生成するという点で、私たちのアプローチよりもはるかに優れています。

Schick氏とSchütze氏は、GitHubでPETコードとFewGLUEデータセットをオープンソース化している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方