EleutherAIが60億パラメータGPT-3のクローンであるGPT-Jをオープンソース化

原文(投稿日：2021/07/13)へのリンク

EleutherAIの研究者チームは、GPT-Jをオープンソース化した。これはGPT-3に基づく60億パラメーターの自然言語処理（NLP）AIモデルである。このモデルは800GBのオープンソーステキストデータセットでトレーニングされており、同様のサイズのGPT-3モデルに匹敵するパフォーマンスを備えている。

開発者のAran Komatsuzaki氏はブログでリリースを発表した。このモデルは、GoogleCloudのv3-256 TPUsを使ってEleutherAIのPileデータセットでトレーニングされた。トレーニングには約5週間かかった。一般的なNLPベンチマークタスクでは、GPT-Jは、6.7BパラメータバージョンのGPT-3のに対するOpenAIが公開した結果と同様の精度を達成している。EleutherAIのリリースには、モデルコード、事前トレーニング済みのウェイトファイル、Colabノートブック、およびデモWebサイトが含まれている。Komatsuzaki氏は次のように述べている。

GPT-Jは、さまざまな[ダウンストリーム]タスクでのゼロショットパフォーマンスの点で、公開されている最高のTransformer[言語モデル]です。

OpenAIは2018年に、生成型事前トレーニングトランスフォーマー（GPT）に関する論文を最初に公開した。これは、いくつかのNLPタスクで最先端の結果を達成した教師なし学習モデルである。2019年の初めに、OpenAIはGPT-2と呼ばれる1.5Bパラメーターモデルを発表した。OpenAIは当初、「テクノロジーの悪意のあるアプリケーションに関する懸念」を理由に、最大のトレーニング済みモデルのリリースを拒否した。しかし、その年の後半にモデルをリリースした。昨年、OpenAIは175BパラメータモデルであるGPT-3,を発表した。しかし、トレーニング済みのモデルファイルはリリースしなかった。代わりに、OpenAIは、開発者がWebサービス呼び出しを介してモデルをOpenAIのコードに統合できるようにするためのAPIを提供した。

「ボランティア研究者による分散した草の根の集団」であるEleutherAIは、2021年3月にGPTに似たシステムである2.7BパラメーターGPT-Neoモデルの最初の実装をリリースした。GPT-NeoはTensorFlowに実装され、並列ライブラリであるMesh TensorFlowを使ってTPUでトレーニングされた。チームはまた、MicrosoftのDeepSpeedを使うGPUベースの実装であるGPT-NeoXの開発を開始した。コードはオープンソース化されたが、現在利用可能なモデルファイルはない。

最新モデルのGPT-Jは、新しいライブラリであるMesh-Transformer-JAXを使ってトレーニングされた。ライブラリは、TensorFlowなどの専用の深層学習フレームワークの代わりに、GoogleのJAX線形代数フレームワークを使う。Komatsuzaki氏は、GPT-Jが「Tensorflowよりも柔軟で高速な推論」を提供し、モデルの開発にかかる時間が以前のプロジェクトよりもはるかに短くなると主張している。2.7GB GPT-Neoモデルと比較して、GPT-Jはトレーニング効率が125％向上している。

モデルの悪用に関する懸念に反応して、EleutherAIの共同創設者であるConnor Leahy氏は、組織のブログにリリースの正当性を投稿した。Leahy氏は、GPTのようなモデルは「単純で理論的に単純」であり、テクノロジーを悪意のある人物の手に渡さないようにすることは不可能であると述べた。代わりに、EleutherAIの目標は、特に「資金力のない」研究者のために、より広範な安全性研究を可能にすることである。Leahy氏はまた、Microsoft、NVIDIA、Googleなど、資金が豊富な多くの組織がGPT-3よりもさらに大きなモデルをすでにトレーニングしていることを指摘した。

リリースに関するTwitterのディスカッションで、ユーザはモデルを実行するためのハードウェア要件について質問した。Komatsuzaki氏は答えた。

推論のために、原則として、12GBを少し超えるメモリを保持できる任意のハードウェアで実行するようにコードを変更できます。最高のスループットはTPUで達成できます。その場合、そのまま実行できます。微調整はより要求が厳しく、そのためには少なくともTPU v3-8が必要です。

GPT-JのコードとモデルはGitHubで入手できる。EleutherAIのWebサイトは、モデルのテキスト生成機能のインタラクティブなデモを提供している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

CopilotがOneDriveで利用可能に：効率的な文書管理のためのAI搭載機能

セキュリティ専門家がSQLインジェクションで空港セキュリティの抜け穴を突く

CockroachDBが無料のCoreバージョンを終了、オープンソースコミュニティで懸念が高まる

NetflixのPushy：スケーラブルなウェブソケット・プラットフォームの進化：1億の同時接続を処理する

CanvaはどのようにWebRTCでリアルタイム・コラボレーションを拡張したか：WebSocketからシームレスなP2P通信へ

Figma、ECSからKubernetesに移行し、CNCFエコシステムの恩恵とコスト削減を図る

データメッシュ組織の構築

ソフトウェア会社での社内DORA調査の知見

時代に左右されないテストツールを使う意義

OpenAIがマルチエージェント・オーケストレーションの実験的オープンソース・フレームワーク「Swarm」をリリース

大学の研究者がLLMにおける思考連鎖推論の分析を発表した

Meta社のリアルタイム音声翻訳AIシステムに向けたResearch SuperCluster

WebAssemblyはコンテナの次の進化ステップかもしれない：ミュンヘンのInfoQ DevSummitでFermyonが語る

Kubernetes Autoscaler Karpenterが1.0のマイルストーンに到達

Uberのバッチ・データ・プラットフォームの拡張：データ・メッシュの原則によるクラウドへの道のり

QCon San Francisco

QCon London

InfoQ Dev Summit Boston

Login with:

アカウントをお持ちでない方