Googleが5400億パラメータのAI言語モデルPaLMをトレーニング

原文(投稿日：2022/04/26)へのリンク

Google Researchは最近、Pathways Language Model（PaLM）を発表した。これは、5400億パラメータのAI自然言語処理（NLP）モデルで、BIGベンチベンチマークでは平均的な人間のパフォーマンスを超えている。PaLMは、多くの評価タスクで他の最先端のシステムよりも優れており、論理的推論やジョークの説明などのタスクで強力な結果を示している。

ソフトウェアエンジニアのSharan Narang氏とAakanksha Chowdhery氏は、Google Researchブログの投稿でPaLMについて説明した。このモデルでは、自己回帰デコーダーのみのTransformerアーキテクチャが使われる。そして、GoogleのPathwaysテクノロジーを使って、これまでに知られている最大のクラスタである6144 TPUチップのクラスタでトレーニングを行った。29の自然言語処理（NLP）タスクのセットで評価すると、PaLMは1つを除くすべてで現在のレコードを上回った。PaLMでは、応答を生成するための新しい思考のチェーンの促進方法と組み合わされることで、推論ベンチマークのいくつかで最先端のパフォーマンスを実現している。また、論理的推論とジョークの説明という2つの新しい推論タスクの機能が示されている。Narang氏とChowdhery氏は次のように述べている。

PaLMでは、スケーリング機能に新たなアーキテクチャの選択とトレーニングスキームを組み合わせることで、さらに高性能なモデルへの道を開いており、Pathwaysのビジョンに近づいています。「単一のAIシステムで、数千または数百万のタスクを一般化します。その理由は、さまざまなタイプのデータを理解し、並外れた効率性で実行するためです。」

言語モデルでは、前のトークンが与えられると、テキストのシーケンスにおける次のアイテムやトークンを予測する。このようなモデルが繰り返し使用され、予測された出力が入力としてフィードバックされる場合には、そのモデルは自己回帰と呼ばれる。Transformerディープラーニングアーキテクチャに基づく自動回帰言語モデルは、多くのNLPタスクで最先端のパフォーマンスを記録している。多くの研究者が非常に大規模なTransformerモデルを開発している。これらの大規模なモデルのトレーニングは大きなチャレンジである。それは、多くの場合、そのモデルは単一のGPUまたはTPUアクセラレータのメモリに収まらないほど大きく、大規模なトレーニングデータセットの処理には数時間、場合によっては数日かかるためである。

昨年末、GoogleはPathwaysと呼ばれるシステムを開発する計画を発表した。これは新しいAIアーキテクチャで、さまざまなタスクとデータタイプを処理するために設計されている。この作業の一環として、彼らはTPUアクセラレータを大規模に使用するためのオーケストレーションレイヤを開発した。PaLMチームはPathwaysを使って、「パイプラインの並列処理を使うことなく」6144TPUを使うようにトレーニングプロセスをスケールさせた。Pathwaysを使うことで、トレーニングも効率化した。FLOP使用率モデルに基づいて、GPT-3の場合が21.3％効率化されたのに対して、PaLMトレーニングは46.2％効率化された。

類似のモデルと同様に、PaLMでは最初に自己監視学習によって事前にトレーニングされている。トレーニングでは、Webページ、ウィキペディア、書籍、およびオープンソースコードリポジトリから抽出された大きなテキストコーパスが使われている。PaLMでは、英語のみのNLPタスクでは新たに最先端の記録を樹立し、多言語タスクでは「競争力のある」パフォーマンスを実現している。それに加えて、text-to-codeとcode-to-codeのタスクのいくつかで「極めて優れた」結果を達成しており、OpenAIのDavinci Codex APIと同等あるいはそれを超えるパフォーマンスを出している。研究者は、ジョークの説明を含む、2つの多段階推論タスクでもPaLMのパフォーマンスを調査した。

入力: ニューラルネットワークを10,000回ランダムに再起動しようとしましたが、過剰適合であると非難されました。「良い種（seed）は罰を受ける」でしょう。

モデル出力: このジョークは言葉をもじったものです。ニューラルネットワークは、データから学習できるコンピュータープログラムです。「種（seed）」は、乱数ジェネレーターを初期化するために使われる数値です。「良い種」とは、良い乱数ジェネレーターを生成する数値です。「良い行い（deed）は罰を受ける」という言葉は、何か良いことをしたときに、それに対して罰せられることもあることを意味します。

PaLMチームのメンバーのWilliam Fedus氏は、Twitterスレッドでこの作業に関する彼の考えのいくつかを共有した。彼の反応は全体的に肯定的であったが、Fedus氏は改善すべき2つの領域に注目した。

このモデルはTPUv4で非常に効率的に実行されますが、モデルのサイズに基づいて計算効率が低下します。この計算バジェットに対して540Bパラメーターは大きすぎます...[また]PaLMはデコーダーのみですが、エンコーダー・デコーダーモデルの方が細かい調整には優れていることがわかっています。

いくつかのNLPベンチマークリーダーボードにおけるPaLMのランクは、Papers with Codeで確認できる。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

QCon London：Netflix、サーバー駆動型通知で時間とコストを節約

InfoQ Dev Summit Boston：AIハイプの時代において責任ある開発者であるために

JetBrains IDE RustRoverが無償の非商用ライセンスで正式リリース

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約

QCon London：Meta社、モノリシック・アーキテクチャを用いわずか5ヶ月でThreadsをリリース

包括的なパブリックソフトウェア・プラットフォームを構築するためのアイデア

製品としてのプラットフォームを構築することで、ソフトウェア・エンジニアはどのように力を得たか？

ソフトウェア製品チームを技術投資家に変える

Amazon Q Apps、企業向け生成AIアプリの作成簡素化を目指す

MariaDBがオープンソースのVectorプレビューを発表、MySQLのデフォルトオプションを目指す

Pinterest、世界最大級のHBaseデプロイメントをシャットダウン

SlackがKubernetes StatefulSetsのBedrock Operatorをリリース

RADIUSプロトコルの脆弱性により、ネットワーク機器の認証が暴露される

HashiCorp、KubernetesとNomadの統合を強化したConsul 1.19をリリース

InfoQ Live Roundtable

InfoQ Dev Summit Munich

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方

Googleが5400億パラメータのAI言語モデルPaLMをトレーニング

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。