OpenAIが1,750億のパラメーターを持つGPT-3 AI言語モデルを発表

原文(投稿日：2020/06/02)へのリンク

OpenAIの研究者チームは先頃、前バージョンのGPT-2の100倍の1,750億のパラメーターを備えた自然言語のディープラーニングモデルであるGPT-3を説明する論文を発表した。モデルは約5兆語で学習済みであり、微調整することなくいくつかのNLPベンチマークで最先端のパフォーマンスを実現する。

arXivで発表された論文では、30人を超える共著者のチームがモデルといくつかの実験について説明した。研究者の目標は、微調整をほとんどまたはまったく行うことなく、さまざまなタスクで良好に機能するNLPシステムを作成することであった。以前の研究では、より大きなモデルが解決策になる可能性があることが示されていた。この仮説を検証するために、チームは以前のモデルであるGPT-2のサイズを15億のパラメーターから1,750億に増やした。学習のために、チームはCommon Crawlデータセットや英語版のWikipediaなど、いくつかのデータセットを収集した。このモデルは、いくつかのNLPベンチマークに対して評価され、「クローズドブック」の質問応答タスクにおける最先端のパフォーマンスと一致し、LAMBADA言語モデリングタスクの新記録を樹立した。

OpenAIは昨年、GPT-2のヘッドラインで、15億のパラメーターバージョンの学習モデルをリリースしないことを決定した。GPT-2は、Transformerアーキテクチャに基づく多くある大規模NLPモデルの1つである。これらのモデルは、自己教師あり学習を使用して、ウィキペディアコンテンツなどの大きなテキストコーパスで事前トレーニングされている。このシナリオでは、予想される出力とペアになっている入力を含むデータセットを使用する代わりに、モデルに「マスクされた」という単語を含む一連のテキストが与えられ、周囲のコンテキストに基づいてマスクされた単語を予測することを学習する必要がある。この事前トレーニングの後、モデルは、質問応答などの特定のNLPタスク用のラベル付けされたベンチマークデータセットで微調整される。

しかしながら、研究者は、特に大規模なデータセットで事前トレーニングされた大規模なモデルの場合、学習済みモデルは微調整なしでもかなりうまく機能することを発見した。今年の初めに、OpenAIはTransformerモデルのいくつかの「スケーリングの法則」を仮定した論文を発表した。いくつかの異なるTransformerベースのモデルのパフォーマンスデータに基づいて、OpenAIは、モデルのパフォーマンス（この場合、テストデータセットのクロスエントロピー損失）は、モデルパラメーターの数、データセットのサイズおよびトレーニングに使用される計算量とべき乗則の関係があると結論付けた。これらの3つの変数を増やすとパフォーマンスが向上する。

事前トレーニングのために、チームはCommon Crawl、WebText、英語版Wikipedia、および2冊のコーパスで構成されるデータセットを収集した。データの品質を改善するために、研究者らはCommon Crawlをフィルタリングして冗長性を削除した。Common Crawlはインターネットからスクレイピングされるため、トレーニングを「汚染する」ベンチマーク評価の実際のテストデータが含まれる場合があるからである。チームはこの汚染を取り除くことを試みた。しかし、彼らは認めている:

残念なことに、フィルタリングのバグにより、いくつかの重複を無視してしまい、トレーニングのコストのためにモデルを再学習することができませんでした。

チームはこのデータを使用して、1億2500万個のパラメーターから1750億個までのサイズのモデルの8つのバージョンをトレーニングした。モデルは、多くの場合、最先端に近いかそれ以上のパフォーマンスで、幅広いカテゴリの数十のNLPベンチマークで評価された。ニュース記事を生成するタスクでモデルを評価するために、チームはAmazon Mechanical Turkを使用して判断する人を雇い、一対の記事のどちらが本物で、どれがGPT-3によって生成されたかを推測した。人が実際の記事を選んだのは、52％だけであった。本質的に、人は本当の記事を選ぶのにコインフリップに勝るものはなかった。チームはまた、モデルのいくつかの弱点についても話し合った。たとえば、テキストの合成では、「GPT-3サンプルはまだ意味的にドキュメントレベルで繰り返され、十分に長いパッセージで一貫性を失い始め、矛盾し、時々不連続な文章や段落が含まれます。」このモデルは、「チーズを冷蔵庫に入れたら、溶けますか？」などの「常識的な物理学」の質問にも問題がある。

NLP研究コミュニティのメンバー数人がTwitterでモデルのサイズについてコメントしている。Alchemy APIの創設者であるElliot Turner氏は、最大のモデルをトレーニングするためのコストは「ほぼ1200万ドル」になる可能性があると推測している。Mark Riedl教授は、モデルのサイズとパフォーマンスの関連の説明を提案する:

1つの仮説は、GPT-3は非常に多くのパラメータ（訓練されたトークンの数の半分）を持っているので、記憶ネットワークのように動作し始めているということです。

テストデータセットの一部と、モデルによって生成されたテキストサンプルのコレクションを含むGitHubリポジトリはあるが、GPT-2と同様に、OpenAIは学習済みモデルまたはコードをリリースしていない。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

VS Code 1.123、サプライチェーン攻撃を抑制するため、拡張機能の更新を2時間遅らせる機能を追加

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

AIがソフトウェアエンジニアリング・パフォーマンスを増幅、2025年DORAレポート

Kubescape 4.0、Kubernetesに実行時セキュリティとAIエージェントスキャン機能を追加

Amazon CloudWatch、OpenTelemetryメトリクス対応をプレビュー公開

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027