99.9％少ないパラメータでGPT-3パフォーマンスを上回るAIのトレーニング方法

原文(投稿日：2020/10/06)へのリンク

LMU Munichの科学者チームは、自然言語処理 (NLP) モデルの深層学習トレーニング手法であるPattern-Exploiting Training (PET)を開発した。チームはPETを使用して、SuperGLUEベンチマークで1750億パラメータのGPT-3の3パーセント以上となる2億2300万パラメータを使用してTransformerNLPモデルをトレーニングした。

博士課程の学生であるTimo Schick氏と大学の情報言語処理センタのHinrich Schütze教授は、arXivに掲載された論文で彼らのプロセスと実験結果について説明した。PETは、事前にトレーニングされた言語モデルを微調整するための手法であり、ラベルのない例から追加の「ソフトラベルの」トレーニングデータを生成する。これは、微調整のためのラベル付きの例がほとんどないNLPベンチマークなど、「Few-Shot」シナリオでモデルのパフォーマンスを向上させるのに役立つ。研究者はPETを使用して、ALBERT Transformerモデルを微調整し、GPT-3の71.8と比較して、SuperGLUEベンチマークで76.8の平均スコアを達成した。

教師あり機械学習では、コンピュータビジョンやNLPなどのタスクを適切に実行するために、大規模なデータセットが必要になることがよくある。ただし、これらの大規模なデータセットにラベルを付けるには、人間の作業者が画像内のオブジェクトを手動で識別したり、文の感情を評価したりする必要があるため、時間と費用がかかる可能性がある。NLPタスクの場合、多くの研究者は、Wikipediaのコンテンツなど、ラベルのない大規模なデータセットでの自己教師あり学習を通して大規模なモデルが事前トレーニングされる転移学習に目を向けている。モデルが事前にトレーニングされると、はるかに小さいラベル付きデータセットで教師あり学習を使用して、感情分析などの特定のタスクに合わせてモデルを「微調整」できる。ほとんどの最先端のNLPの結果は、事前にトレーニングされたTransformerモデルを微調整することによって実現される。

Few-Shot学習は、新しいタスクに一般化するモデルの能力をテストする微調整に関連するシナリオである。そのタスクの例はごくわずかで、多くの場合、100未満、場合によっては1つ (one-shot）、またはない（zero-shot）。OpenAIの1750億パラメータのGPT-3は、事前にトレーニングされた大規模なモデルが、モデルのパラメータを微調整することなく、Few-Shotの学習シナリオでうまく機能することを示した。代わりに、モデルの内部状態または「コンテキスト」をテキストの例とともにタスクのテキストの説明で更新するだけで、32の例だけで「ほぼ最先端の結果」を生成するのに十分だった。ただし、Schick氏とSchütze氏は、この戦略のいくつかの欠点を指摘している。コンテキストサイズの制限により、使用できる例の数が制限され、さらに重要なことに「多くの実世界シナリオで使用しようとすればするほど、大きいモデルに依存しています。」

より小さなモデルで同様のパフォーマンスを達成するために、研究者は、Few-Shotの例から追加のトレーニングデータを生成する半教師ありトレーニング手法であるPETを開発した。PETは、最初に入力例をcloze-styleのフレーズに変換することによって機能する。これらは、言語モデルのアンサンブルを微調整するために使用され、次に、ラベルのない大きなデータセットに注釈を付けて「ソフトラベルの付いた」データセットを生成するために使用される。次に、最終的なモデルがソフトラベルされたデータで微調整される。チームは、SuperGLUEデータセットにPETを適用して、FewGLUEと呼ばれるソフトラベルのデータセットを作成した。これを使用して、SuperGLUEベンチマークでGPT-3のFew-Shotのパフォーマンスを超えるALBERTモデルを微調整した。

筆頭著者のSchick氏は、Redditでのディスカッションで、この作業に関するいくつかの質問に答えた。コメント提供者は、PETはNLPベンチマークでより良い結果をもたらしたが、GPT-3はより柔軟に見えたと述べた。Shickはそれに同意した:

GPT-3は確かにテキストの長いシーケンス (要約や機械翻訳など) を生成するという点で、私たちのアプローチよりもはるかに優れています。

Schick氏とSchütze氏は、GitHubでPETコードとFewGLUEデータセットをオープンソース化している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

生成AIの実践的応用

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

JetBrains IDE RustRoverが無償の非商用ライセンスで正式リリース

Slack、ASTと大規模言語モデルを組み合わせて15,000の単体テストの80%を自動変換する

CO2.js、開発者によるアプリケーションの二酸化炭素排出量の追跡を支援

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約

QCon London：Meta社、モノリシック・アーキテクチャを用いわずか5ヶ月でThreadsをリリース

ソフトウェア・エンジニアリングの役割からマネジメントの役割へ移行する

持続可能なソフトウェア開発の方法

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

AWS、生成AIアプリケーション構築のためのAmazon Bedrock Studioを発表

スタンフォード大学による、"2024 AI Index Report"公開：AI規制の成長と生成AI投資

Meta社、効率的な長配列モデリングのためのMEGALODON LLMをオープンソース化

GitHubはどのようにコードプッシュ処理の信頼性を向上させたか

UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり

AWS、Amazon S3へのオブジェクトのアップロードにマルウェア検知機能を導入

InfoQ Live Roundtable

InfoQ Dev Summit Munich

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方