Googleが5400億パラメータのAI言語モデルPaLMをトレーニング

原文(投稿日：2022/04/26)へのリンク

Google Researchは最近、Pathways Language Model（PaLM）を発表した。これは、5400億パラメータのAI自然言語処理（NLP）モデルで、BIGベンチベンチマークでは平均的な人間のパフォーマンスを超えている。PaLMは、多くの評価タスクで他の最先端のシステムよりも優れており、論理的推論やジョークの説明などのタスクで強力な結果を示している。

ソフトウェアエンジニアのSharan Narang氏とAakanksha Chowdhery氏は、Google Researchブログの投稿でPaLMについて説明した。このモデルでは、自己回帰デコーダーのみのTransformerアーキテクチャが使われる。そして、GoogleのPathwaysテクノロジーを使って、これまでに知られている最大のクラスタである6144 TPUチップのクラスタでトレーニングを行った。29の自然言語処理（NLP）タスクのセットで評価すると、PaLMは1つを除くすべてで現在のレコードを上回った。PaLMでは、応答を生成するための新しい思考のチェーンの促進方法と組み合わされることで、推論ベンチマークのいくつかで最先端のパフォーマンスを実現している。また、論理的推論とジョークの説明という2つの新しい推論タスクの機能が示されている。Narang氏とChowdhery氏は次のように述べている。

PaLMでは、スケーリング機能に新たなアーキテクチャの選択とトレーニングスキームを組み合わせることで、さらに高性能なモデルへの道を開いており、Pathwaysのビジョンに近づいています。「単一のAIシステムで、数千または数百万のタスクを一般化します。その理由は、さまざまなタイプのデータを理解し、並外れた効率性で実行するためです。」

言語モデルでは、前のトークンが与えられると、テキストのシーケンスにおける次のアイテムやトークンを予測する。このようなモデルが繰り返し使用され、予測された出力が入力としてフィードバックされる場合には、そのモデルは自己回帰と呼ばれる。Transformerディープラーニングアーキテクチャに基づく自動回帰言語モデルは、多くのNLPタスクで最先端のパフォーマンスを記録している。多くの研究者が非常に大規模なTransformerモデルを開発している。これらの大規模なモデルのトレーニングは大きなチャレンジである。それは、多くの場合、そのモデルは単一のGPUまたはTPUアクセラレータのメモリに収まらないほど大きく、大規模なトレーニングデータセットの処理には数時間、場合によっては数日かかるためである。

昨年末、GoogleはPathwaysと呼ばれるシステムを開発する計画を発表した。これは新しいAIアーキテクチャで、さまざまなタスクとデータタイプを処理するために設計されている。この作業の一環として、彼らはTPUアクセラレータを大規模に使用するためのオーケストレーションレイヤを開発した。PaLMチームはPathwaysを使って、「パイプラインの並列処理を使うことなく」6144TPUを使うようにトレーニングプロセスをスケールさせた。Pathwaysを使うことで、トレーニングも効率化した。FLOP使用率モデルに基づいて、GPT-3の場合が21.3％効率化されたのに対して、PaLMトレーニングは46.2％効率化された。

類似のモデルと同様に、PaLMでは最初に自己監視学習によって事前にトレーニングされている。トレーニングでは、Webページ、ウィキペディア、書籍、およびオープンソースコードリポジトリから抽出された大きなテキストコーパスが使われている。PaLMでは、英語のみのNLPタスクでは新たに最先端の記録を樹立し、多言語タスクでは「競争力のある」パフォーマンスを実現している。それに加えて、text-to-codeとcode-to-codeのタスクのいくつかで「極めて優れた」結果を達成しており、OpenAIのDavinci Codex APIと同等あるいはそれを超えるパフォーマンスを出している。研究者は、ジョークの説明を含む、2つの多段階推論タスクでもPaLMのパフォーマンスを調査した。

入力: ニューラルネットワークを10,000回ランダムに再起動しようとしましたが、過剰適合であると非難されました。「良い種（seed）は罰を受ける」でしょう。

モデル出力: このジョークは言葉をもじったものです。ニューラルネットワークは、データから学習できるコンピュータープログラムです。「種（seed）」は、乱数ジェネレーターを初期化するために使われる数値です。「良い種」とは、良い乱数ジェネレーターを生成する数値です。「良い行い（deed）は罰を受ける」という言葉は、何か良いことをしたときに、それに対して罰せられることもあることを意味します。

PaLMチームのメンバーのWilliam Fedus氏は、Twitterスレッドでこの作業に関する彼の考えのいくつかを共有した。彼の反応は全体的に肯定的であったが、Fedus氏は改善すべき2つの領域に注目した。

このモデルはTPUv4で非常に効率的に実行されますが、モデルのサイズに基づいて計算効率が低下します。この計算バジェットに対して540Bパラメーターは大きすぎます...[また]PaLMはデコーダーのみですが、エンコーダー・デコーダーモデルの方が細かい調整には優れていることがわかっています。

いくつかのNLPベンチマークリーダーボードにおけるPaLMのランクは、Papers with Codeで確認できる。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

オラクル、ARMとKubernetes 1.28をサポートするOracle Cloud Native 1.8を発表

SUSE、Kubernetesとエッジ管理製品のアップグレードを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Googleが5400億パラメータのAI言語モデルPaLMをトレーニング

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。