Googleが2800億パラメータのAI言語モデル”Gopher”をトレーニング

原文(投稿日：2022/01/04)へのリンク

Google子会社のDeepMindが、2,800億のパラメータを持つAI自然言語処理(NLP)モデルGopherを発表した。Transformerアーキテクチャをベースとし、MassiveTextと呼ばれる10.5TBのコーパスでトレーニングされたGopherは、124評価タスク中の100件において現在の最高記録を凌駕する。

arXivに公開された論文には、そのモデルと実験に関する説明がある。AI一般に関する研究活動の一端としてDeepMindは、大規模言語モデル(LLM)の長所と短所に関する調査を目的として、Gopherや、それより小規模ないくつかのモデルをトレーニングした。具体的には、読解やファクトチェックといった、モデル規模を大きくすることで精度が向上するタスクと、論理的および数学的推論のようにそうではないものとを識別したのだ。チームは>Massive Multitask Language Understanding(MMLU)やBig-benchなど、さまざまなNLPベンチマークを使ってGopherの評価を行い、GPT-3などいくつかのベースモデルを対象にパフォーマンスを比較した。その結果、Gopherは、知識集約型のタスクにおいては一貫した性能向上を示す一方で、推論中心のタスクではそれに劣ることが明らかになった。DeepMindチームによると、Gopherは、

特にこれらのモデルの評価やデプロイの方法に関わる領域において、DeepMindの言語研究を推進する基盤の一端を担うものです ... このアプローチは、社会に貢献する言語モデルを構築し、科学を発展させて人類に利するためのインテリジェントの解明という私たちの使命を推進する上で、重要な意味を持っています。

言語モデルは、テキストシーケンス内のトークン列を与えることにより、それに続くアイテムないしトークンを推測する。このようなモデルを反復的に使用し、推測したアウトプットをインプットとしてフィードバックする場合、そのモデルは自己回帰であると称される。Transformerのディープラーニングアーキテクチャをベースとする自己回帰言語モデルは、多くのNLPタスクにおいて最先端の性能を記録しており、多数の研究者が極めて大規模なモデルの開発を続けている。1,750億パラメータのGPT-3が最も有名なモデルだと思われるが、1,780億パラメータのJurassic-1や5,300億パラメータのMegatron-Turing NLGなど、さらに大規模なモデルのトレーニングも実施されている。

このようなモデルのトレーニングでは、大規模なデータセットの収集が課題となる。PileやC4など、データセットのいくつかはオープンソースとして公開されており、WikipediaなどのWebサイトからスクラップしたドキュメントが含まれている。これらのデータがWeb上で公開されていることから、単にWebを無差別にクロールしただけでは、トレーニングデータセットが汚染される可能性があるのではないか、とDeepMindチームは危惧していた。この問題を回避するためにDeepMindは、データを準備するためのパイプラインと、MassiveTextと呼ぶトレーニングデータセットを開発した。C4、Wikipedia、GitHub、その他のソースのコンテンツを起点として、明示的なコンテンツの除外、ドキュメントの重複排除、テストデータの除外をパイプラインが行う。

DeepMindでは、4,400万パラメータから2,800億パラメータまで、さまざまなサイズの6つのGopherモデルをトレーニングした。チームはそれらのモデルを、BIG-benchから62、MMLUから57、他に言語モデリングや読解力、ファクトチェック、質問応答、常識などを含む152のタスクで評価した。これらタスク中の124で、既知の最先端のパフォーマンスとの比較を行った結果、Gopherは100件で記録の更新に成功したのだ。さらに、このモデルがさまざまなスケールにおいてどのように機能するかを調査した結果、"多くの学問科目や一般知識においては、規模の拡大のみで大きな改善が見られる"反面、論理的な推論や常識、数学的タスクでの規模による"メリットは限定的である"、という結論に達した。

Hacker NewsでのGopherに関する議論では、開発者がWeb以前の検索システムであるGopherと同じ名前を付けたのは、情報を"掘り起こす"能力を備えているからではないか、というコメントがあった。言語モデルを"真の"AIと見なすべきなのか、という議論もあった。

人工知能に近づけば近づくほど、何をAIと認めるべきかというハードルも上がっていきます(当然といえば当然ですが)。GopherやGPT-3は、技術的情報の抽出においては、すでに平均的な人よりもずっと正確なのです。

NLPベンチマークのいくつかにおけるGopherのランクは、"Papers with Code" Webサイトで確認できる。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

QCon London：Netflix、サーバー駆動型通知で時間とコストを節約

InfoQ Dev Summit Boston：AIハイプの時代において責任ある開発者であるために

JetBrains IDE RustRoverが無償の非商用ライセンスで正式リリース

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約

QCon London：Meta社、モノリシック・アーキテクチャを用いわずか5ヶ月でThreadsをリリース

包括的なパブリックソフトウェア・プラットフォームを構築するためのアイデア

製品としてのプラットフォームを構築することで、ソフトウェア・エンジニアはどのように力を得たか？

ソフトウェア製品チームを技術投資家に変える

Amazon Q Apps、企業向け生成AIアプリの作成簡素化を目指す

MariaDBがオープンソースのVectorプレビューを発表、MySQLのデフォルトオプションを目指す

Pinterest、世界最大級のHBaseデプロイメントをシャットダウン

SlackがKubernetes StatefulSetsのBedrock Operatorをリリース

RADIUSプロトコルの脆弱性により、ネットワーク機器の認証が暴露される

HashiCorp、KubernetesとNomadの統合を強化したConsul 1.19をリリース

InfoQ Live Roundtable

InfoQ Dev Summit Munich

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方

Googleが2800億パラメータのAI言語モデル”Gopher”をトレーニング

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。