BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 99.9%少ないパラメータでGPT-3パフォーマンスを上回るAIのトレーニング方法

99.9%少ないパラメータでGPT-3パフォーマンスを上回るAIのトレーニング方法

ブックマーク

原文(投稿日:2020/10/06)へのリンク

LMU Munichの科学者チームは、自然言語処理 (NLP) モデルの深層学習トレーニング手法であるPattern-Exploiting Training (PET)を開発した。チームはPETを使用して、SuperGLUEベンチマークで1750億パラメータのGPT-3の3パーセント以上となる2億2300万パラメータを使用してTransformerNLPモデルをトレーニングした。

博士課程の学生であるTimo Schick氏と大学の情報言語処理センタHinrich Schütze教授は、arXivに掲載された論文で彼らのプロセスと実験結果について説明した。PETは、事前にトレーニングされた言語モデルを微調整するための手法であり、ラベルのない例から追加の「ソフトラベルの」トレーニングデータを生成する。これは、微調整のためのラベル付きの例がほとんどないNLPベンチマークなど、「Few-Shot」シナリオでモデルのパフォーマンスを向上させるのに役立つ。研究者はPETを使用して、ALBERT Transformerモデルを微調整し、GPT-3の71.8と比較して、SuperGLUEベンチマークで76.8の平均スコアを達成した。

教師あり機械学習では、コンピュータビジョンやNLPなどのタスクを適切に実行するために、大規模なデータセットが必要になることがよくある。ただし、これらの大規模なデータセットにラベルを付けるには、人間の作業者が画像内のオブジェクトを手動で識別したり、文の感情を評価したりする必要があるため、時間と費用がかかる可能性がある。NLPタスクの場合、多くの研究者は、Wikipediaのコンテンツなど、ラベルのない大規模なデータセットでの自己教師あり学習を通して大規模なモデルが事前トレーニングされる転移学習に目を向けている。モデルが事前にトレーニングされると、はるかに小さいラベル付きデータセットで教師あり学習を使用して、感情分析などの特定のタスクに合わせてモデルを「微調整」できる。ほとんどの最先端のNLPの結果は、事前にトレーニングされたTransformerモデルを微調整することによって実現される。

Few-Shot学習は、新しいタスクに一般化するモデルの能力をテストする微調整に関連するシナリオである。そのタスクの例はごくわずかで、多くの場合、100未満、場合によっては1つ (one-shot)、またはない(zero-shot)。OpenAIの1750億パラメータのGPT-3は、事前にトレーニングされた大規模なモデルが、モデルのパラメータを微調整することなく、Few-Shotの学習シナリオでうまく機能することを示した。代わりに、モデルの内部状態または「コンテキスト」をテキストの例とともにタスクのテキストの説明で更新するだけで、32の例だけで「ほぼ最先端の結果」を生成するのに十分だった。ただし、Schick氏とSchütze氏は、この戦略のいくつかの欠点を指摘している。コンテキストサイズの制限により、使用できる例の数が制限され、さらに重要なことに「多くの実世界シナリオで使用しようとすればするほど、大きいモデルに依存しています。」

より小さなモデルで同様のパフォーマンスを達成するために、研究者は、Few-Shotの例から追加のトレーニングデータを生成する半教師ありトレーニング手法であるPETを開発した。PETは、最初に入力例をcloze-styleのフレーズに変換することによって機能する。これらは、言語モデルのアンサンブルを微調整するために使用され、次に、ラベルのない大きなデータセットに注釈を付けて「ソフトラベルの付いた」データセットを生成するために使用される。次に、最終的なモデルがソフトラベルされたデータで微調整される。チームは、SuperGLUEデータセットにPETを適用して、FewGLUEと呼ばれるソフトラベルのデータセットを作成した。これを使用して、SuperGLUEベンチマークでGPT-3のFew-Shotのパフォーマンスを超えるALBERTモデルを微調整した。

筆頭著者のSchick氏は、Redditでのディスカッションで、この作業に関するいくつかの質問に答えた。コメント提供者は、PETはNLPベンチマークでより良い結果をもたらしたが、GPT-3はより柔軟に見えたと述べた。Shickはそれに同意した:

GPT-3は確かにテキストの長いシーケンス (要約や機械翻訳など) を生成するという点で、私たちのアプローチよりもはるかに優れています。

Schick氏とSchütze氏は、GitHubでPETコードFewGLUEデータセットをオープンソース化している。
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT