BigScience Research Workshop、AI言語モデルのT0をリリース

原文(投稿日：2021/11/09)へのリンク

BigScience Research Workshopは、ゼロショット・マルチタスク(zero-shot multitask)学習の研究を目的として特別にトレーニングされた自然言語処理(NLP)AIモデルのシリーズを、T0としてリリースした。T0はBIG-benchベンチマークの大半において6倍規模のモデルを上回り、他のNLPベンチマークの一部では16倍の規模を持つGPT-3のパフォーマンスをも凌駕する。

Workshopチームは、arXivで公開された論文の中でモデルとそのトレーニングデータセットについて説明している。完全に"未知(unseen)"のタスクを使って大規模NLPモデルのゼロショットパフォーマンスを調査するため、研究者たちは、教師あり学習NLPデータの大規模なセットを、テンプレート化されたプロンプト形式に変換する作業を実施した。研究の目的は、この形式のトレーニングデータで未知のタスクを汎化するT0の能力を改善可能か、判断を下すことにあった。用意された11のデータセットを用いた評価において、T0は、その中の8つのデータセットでGPT-3のパフォーマンスを上回る結果を出した。さらに、BIG-benchベンチマークの14タスク中の13においては、他の基準モデルを凌ぐ成績を上げた。

大規模な言語モデルは、多くの場合において未知のタスク -- 処理トレーニングを行っていないタスクを、比較的良好に処理することができる。例えばGPT-3では、明示的に実施したのは文章内のマスクされた単語を入力するトレーニングのみだが、実際のモデルは翻訳や質問への応答、さらには3桁の計算までも行うことができる。これを説明する仮説のひとつとして、モデルがトレーニングデータ内にある"暗黙の混合タスク"に遭遇するため、というものがあるのだが、トレーニングデータが主としてWebから収集されたものであるため、そのようなタスクが暗黙的に含まれるのではないか、とBigScienceのチームは指摘している。

BigScience Research Workshopは、"50か国250以上の機関からの600人の研究者"による、1年間にわたるコラボレーションで、大規模なマルチリンガルデータセットとディープラーニングNLPモデルの開発および調査を目標とする。同チームがT0を構築したのは、"教師あり、かつ極めて大規模なマルチタスク方式による、巨大な言語モデルの意図的かつ明示的なトレーニングの焦点を当てる"ためだ。このトレーニングデータの重要なポイントは、自然言語のプロンプトを使って言語タスクを指定することにある。この形式のトレーニングデータを使うことによって、少ないモデルパラメータで未知のタスクをよりよく汎化できるのではないか、と研究者たちは仮説を立てているのだ。

データセットを作成するため、同チームは、さまざまなNLPタスク用の既存の教師あり学習データを収集し、一連のテンプレートを使ってそれらをプロンプト形式に変換した。例えば自然言語推論タスクのテンプレートは、"Xであると仮定した場合、Yだと推測できるか？"というようなものだ。XとYには、例えば"銀行家は教授と運動選手に連絡した"、"銀行家は教授に連絡した"というようなフレーズが入る。このようなインプットに対して、モデルには、真(true)または偽(false)のいずれかへの分類がアウトプットとして求められる。最終的に研究者たちは62のデータセットを収集し、それを12のタスクに整理した。

T0モデルはGoogleのText-To-Text Transfer Transformer(T5)トレーニング済モデルをベースとして、プロンプト形式のマルチタスクデータセットの混合によってファインチューニングされている。モデルのゼロショット汎化能力の評価には、4つのタスクのデータセットがすべて使用された。その結果、110億のパラメータを持つこのモデルは、1,750億パラメータのGPT-3のパフォーマンスを、11のデータセット中8つにおいて上回ったのだった。

T0研究チームのメンバ数人がHacker Newに参加して、この開発について議論している。その中のひとりが、GoogleとEleutherAIがいずれも先頃、汎化能力向上のために"インストラクションチューニング"言語モデルを調査したことに触れていた。モデルのサイズは推論において"面倒"なものか、という質問に対しては、別の研究者が次のようにリプライしている。

サイズが問題になるか、という点に関して言うならば、Google Cloud TPU v3-8デバイス1個でも、あるいは4×32GB×100GPUを備えたサーバでも推論の実行は可能ですし、Hugging Faceにも推論APIはあります ...

T0モデルファイルはHuggingFaceのサイトで公開されている。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方