OpenAIはニューラル言語モデルのスケーリング法則を近似する

原文(投稿日：2020/04/23)へのリンク

2020年1月、独立した研究組織 OpenAI は、完全に接続されたネットワークで過去にのみ行われた大規模な計算作業において、さまざまなアーキテクチャ、サイズ、計算能力、およびデータセットサイズを持つニューラル言語モデルの精度の傾向を経験的に特定した。自然言語処理は、Google翻訳から文法チェッカまですべてで使用されるサブフィールドだ。ただし、最先端のモデルには、大量のデータ、モデルの複雑さ、および計算能力が必要である。著者らは、モデルのスケールに関係する3つの重要な要素は、モデルパラメータの数 (N)、データセットのサイズ (D)、および計算能力の量 (C) であり、深さと幅はトレーニングに強く影響しないことを発見した。サイズ。次に、パフォーマンスは、3つのスケールファクターのそれぞれとべき乗則の関係を示す。最後に、過剰適合はさまざまなモデルで発生する。N と D を個別に増やすと、パフォーマンスペナルティは N^0.74 / D の比率に比例します。係数 N と D は同時に増加する必要がある。

モデルをトレーニングするとき、彼らは、転移学習には一定のペナルティが発生するが、それ以外の場合はトレーニングセットのパフォーマンスとほぼ一致して改善すると判断する。さらに、大きなモデルは小さなモデルよりもサンプル効率が高く、少ない最適化ステップで同様のパフォーマンスを実現する。実際、非常に大きなモデルは、収束する前に最適なパフォーマンスを取得する。

トランスフォーマのテスト損失は、非埋め込みパラメーターの数 ( N )、データセットサイズ ( D )、および最適に割り当てられた計算バジェット (C) によって制限される場合に、べき法則を使用して予測された。最初のスケーリング法則は、パラメータの数が限られているモデルの場合、十分に大きなデータセットに収束するようにトレーニングされていることだ:

2番目のスケーリング法則は、早期打ち切りを伴う限られたデータセットでトレーニングされた大規模モデルの場合だ:

(tokens) 早期打ち切りのある限られたデータセットでトレーニングされたモデルの場合。

3番目のスケーリング法則は、十分に大きいデータセット、最適なサイズのモデル、および十分に小さいバッチサイズを使用すると、計算能力とともにテスト損失が減少することだ。

これらの関係はすべて8桁以上ある。クリティカルバッチサイズは、損失の大きさに反比例する次の式で定義される。

それらはバイトペアエンコーディングを使用してトークン化された WebText2 で言語モデルをトレーニングする。それらはハイパーパラメータ n_layer (層の数)、d_model (残差ストリームの次元)、d_ff (中間フィードフォワード層の次元)、d_attn (アテンション出力の次元)、および n_heads (レイヤごとのアテンションヘッドの数) を使用し、1024トークンの512シーケンスのバッチサイズで固定の 2.5x10⁵ ステップのAdamオプティマイザとAdafactorを使用してパラメータ化する。モデルサイズは768から15億のパラメータの範囲だった。データセットのサイズは2200万から230億トークンの範囲だった。深さ、幅、アテンションヘッド、およびフィードフォワード次元はすべて変化した。コンテキストの長さは1024で、ほとんどの実行でバッチサイズは 2¹⁹ だった。トランスフォーマはLSTMよりわずかに優れた性能を示したが、反復トランスフォーマよりわずかに劣っていた。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco