EleutherAIの研究者チームは、GPT-Jをオープンソース化した。これはGPT-3に基づく60億パラメーターの自然言語処理(NLP)AIモデルである。このモデルは800GBのオープンソーステキストデータセットでトレーニングされており、同様のサイズのGPT-3モデルに匹敵するパフォーマンスを備えている。
開発者のAran Komatsuzaki氏はブログでリリースを発表した。このモデルは、GoogleCloudのv3-256 TPUsを使ってEleutherAIのPileデータセットでトレーニングされた。トレーニングには約5週間かかった。一般的なNLPベンチマークタスクでは、GPT-Jは、6.7BパラメータバージョンのGPT-3のに対するOpenAIが公開した結果と同様の精度を達成している。EleutherAIのリリースには、モデルコード、事前トレーニング済みのウェイトファイル、Colabノートブック、およびデモWebサイトが含まれている。Komatsuzaki氏は次のように述べている。
GPT-Jは、さまざまな[ダウンストリーム]タスクでのゼロショットパフォーマンスの点で、公開されている最高のTransformer[言語モデル]です。
OpenAIは2018年に、生成型事前トレーニングトランスフォーマー(GPT)に関する論文を最初に公開した。これは、いくつかのNLPタスクで最先端の結果を達成した教師なし学習モデルである。2019年の初めに、OpenAIはGPT-2と呼ばれる1.5Bパラメーターモデルを発表した。OpenAIは当初、「テクノロジーの悪意のあるアプリケーションに関する懸念」を理由に、最大のトレーニング済みモデルのリリースを拒否した。しかし、その年の後半にモデルをリリースした。昨年、OpenAIは175BパラメータモデルであるGPT-3,を発表した。しかし、トレーニング済みのモデルファイルはリリースしなかった。代わりに、OpenAIは、開発者がWebサービス呼び出しを介してモデルをOpenAIのコードに統合できるようにするためのAPIを提供した。
「ボランティア研究者による分散した草の根の集団」であるEleutherAIは、2021年3月にGPTに似たシステムである2.7BパラメーターGPT-Neoモデルの最初の実装をリリースした。GPT-NeoはTensorFlowに実装され、並列ライブラリであるMesh TensorFlowを使ってTPUでトレーニングされた。チームはまた、MicrosoftのDeepSpeedを使うGPUベースの実装であるGPT-NeoXの開発を開始した。コードはオープンソース化されたが、現在利用可能なモデルファイルはない。
最新モデルのGPT-Jは、新しいライブラリであるMesh-Transformer-JAXを使ってトレーニングされた。ライブラリは、TensorFlowなどの専用の深層学習フレームワークの代わりに、GoogleのJAX線形代数フレームワークを使う。Komatsuzaki氏は、GPT-Jが「Tensorflowよりも柔軟で高速な推論」を提供し、モデルの開発にかかる時間が以前のプロジェクトよりもはるかに短くなると主張している。2.7GB GPT-Neoモデルと比較して、GPT-Jはトレーニング効率が125%向上している。
モデルの悪用に関する懸念に反応して、EleutherAIの共同創設者であるConnor Leahy氏は、組織のブログにリリースの正当性を投稿した。Leahy氏は、GPTのようなモデルは「単純で理論的に単純」であり、テクノロジーを悪意のある人物の手に渡さないようにすることは不可能であると述べた。代わりに、EleutherAIの目標は、特に「資金力のない」研究者のために、より広範な安全性研究を可能にすることである。Leahy氏はまた、Microsoft、NVIDIA、Googleなど、資金が豊富な多くの組織がGPT-3よりもさらに大きなモデルをすでにトレーニングしていることを指摘した。
リリースに関するTwitterのディスカッションで、ユーザはモデルを実行するためのハードウェア要件について質問した。Komatsuzaki氏は答えた。
推論のために、原則として、12GBを少し超えるメモリを保持できる任意のハードウェアで実行するようにコードを変更できます。最高のスループットはTPUで達成できます。その場合、そのまま実行できます。微調整はより要求が厳しく、そのためには少なくともTPU v3-8が必要です。
GPT-JのコードとモデルはGitHubで入手できる。EleutherAIのWebサイトは、モデルのテキスト生成機能のインタラクティブなデモを提供している。