EleutherAIが200億パラメータAI言語モデルのGPT-NeoX-20Bをオープンソース化

原文(投稿日：2022/04/05)へのリンク

EleutherAIの研究者はGPT-NeoX-20Bをオープンソース化した。これは、GPT-3に似た200億パラメーターの自然言語処理（NLP）AIモデルである。このモデルは、公開されている825GBのテキストデータでトレーニングされており、同様のサイズのGPT-3モデルに匹敵するパフォーマンスを備えている。

リリースはEleutherAIブログで発表された。GPT-NeoX-20Bは、NVIDIA A100-SXM4-40GB GPUを使って、EleutherAIのオープンソースPileデータセットでトレーニングされた。いくつかの一般的なNLPベンチマークタスクで評価した場合、GPT-NeoX-20Bは、OpenAIのCurieモデルとDaVinciモデル間の線形補間に近い精度を達成した。また、MATHテストデータセットでのワンショットパフォーマンスはGPT-3 175Bのパフォーマンスを上回った。EleutherAIは、GPT-NeoX-20Bがオープンソース化されている利用可能な最大の事前トレーニング済み自己回帰言語モデルであると述べている。また、次のようにも述べている。

このサイズのモデルが利用しやすくなることで、これがAIシステムの安全な使用に向けた研究の助けになり、この方向での取り組みに関心のある人が私たちにコンタクトするきっかけになることを願っています。

OpenAIは、2018年に生成型事前トレーニング済みトランスフォーマー（GPT）に関する初の論文を公開した。2019年に1.5BパラメーターGPT-2モデルをリリースした。2020年に、OpenAIは175BパラメーターモデルのGPT-3を発表した。しかし、トレーニング済みモデルのファイルはリリースされなかった。代わりに、OpenAIは、開発者がWebサービス呼び出しを介してモデルをコードに統合できるようにするためのAPIを提供した。それ以来、GPT-2を超える大きさのモデルがいくつかオープンソース化されている。例えば、Megatron-11B、Pangu-α-13B、MetaのFairseq 13B、EleutherAIの以前のモデルであるGPT-NeoとGPT-J-6bなどである。GPT-J-6bはInfoQが去年記事にしている。

このオープンソースモデルに加えて、数千億、さらには数兆ものパラメータを持つGPT-3といったさらに大きなモデルがある。ただし、EleutherAIによると、これらは「ほぼ例外なく」APIによって制御されるているか、まったく公開されていない。 EleutherAIがモデルをリリースする動機の1つは、このようなモデルへオープンにアクセスできるようにすることが現場での研究を進めるために必要であるという彼らの信念にある。大きなスケールになるほど興味深くなるためである。

GPT-NeoX-20BのアーキテクチャはGPT-3に似ている。ただし、いくつかの重要な違いがある。まず、GPT-NeoX-20Bでは、トークン位置のエンコードのために、学習済み埋め込みでなくロータリーポジション埋め込みが使われる。また、GPT-NeoX-20Bでは、アテンションレイヤーとフィードフォワードレイヤーが直列ではなく並列に計算され、スループットが15％向上している。最後に、GPT-3ではSparseレイヤーとDenseレイヤーを交互に使われるところ、GPT-NeoX-20BではDenseレイヤーのみが使われる。

GPT-NeoX-20Bは、EleutherAIのカスタムコードベース（GPT-NeoXとも呼ばれる）を使ってトレーニングされている。MegatronとDeepSpeedをベースにしており、PyTorchに実装されている。モデルが大きすぎて単一のGPUに収まらないため、チームはトレーニング中にモデルの並列処理とデータの並列処理を使った。さらに、チームの計算予算の制約によりハイパーパラメータ検索が「扱いにくい」ため、GPT-3の論文で公開されているハイパーパラメータを再利用することを選択した。

研究者は、LAMBADAやWinoGrande、HendrycksTestナレッジベンチマークやMATHデータセットなど、NLPベンチマークの「幅広いコレクション」でGPT-NeoX-20Bを評価した。彼らは、そのパフォーマンスを以前のGPT-J-6Bモデル、MetaのFairSeq 13B、およびいくつかの異なるサイズのGPT-3と比較した。チームによると、NLPタスクでのGPT-NeoX-20Bのパフォーマンスは「改善の余地あり」だが、科学計算タスクでのパフォーマンスは「優れている」。

EleutherAIの研究者であるConnor Leahy氏は、Twitterでモデルに関するいくつかの質問に答えた。さまざまなランダム初期化シードを試すことによる影響について尋ねられて、Leahyは次のように答えた。

20B実行を1回実施するに足る計算予算しかなかったため、ランダムシードとは比較しませんでした。ただし、小さいモデルでは、シードに基づく顕著な変動は見られませんでした。[大規模な言語モデル]は同じような損失に収束する傾向があり、[強化学習]ほど不安定ではありません。

GPT-NeoX-20Bコードと事前トレーニング済みモデルの重みはGitHubから入手できる

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

VS Code 1.123、サプライチェーン攻撃を抑制するため、拡張機能の更新を2時間遅らせる機能を追加

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

CloudflareがMCPアーキテクチャを概説、企業がセキュリティとガバナンスリスクに立ち向かう中で

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

AWSが新Amazon EKS Capabilitiesを発表、ワークロードオーケストレーションをシンプル化

Dropbox社、過疎ストレージボリュームから容量を回収する新コンパクション設計を導入

Grafana社は、Kafkaを用いてLokiを再設計し、コーディングエージェントにオブザーバビリティをもたらすCLIをリリース

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027

EleutherAIが200億パラメータAI言語モデルのGPT-NeoX-20Bをオープンソース化

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。