Google Researchは最近、Pathways Language Model(PaLM)を発表した。これは、5400億パラメータのAI自然言語処理(NLP)モデルで、BIGベンチベンチマークでは平均的な人間のパフォーマンスを超えている。PaLMは、多くの評価タスクで他の最先端のシステムよりも優れており、論理的推論やジョークの説明などのタスクで強力な結果を示している。
ソフトウェアエンジニアのSharan Narang氏とAakanksha Chowdhery氏は、Google Researchブログの投稿でPaLMについて説明した。このモデルでは、自己回帰デコーダーのみのTransformerアーキテクチャが使われる。そして、GoogleのPathwaysテクノロジーを使って、これまでに知られている最大のクラスタである6144 TPUチップのクラスタでトレーニングを行った。29の自然言語処理(NLP)タスクのセットで評価すると、PaLMは1つを除くすべてで現在のレコードを上回った。PaLMでは、応答を生成するための新しい思考のチェーンの促進方法と組み合わされることで、推論ベンチマークのいくつかで最先端のパフォーマンスを実現している。また、論理的推論とジョークの説明という2つの新しい推論タスクの機能が示されている。Narang氏とChowdhery氏は次のように述べている。
PaLMでは、スケーリング機能に新たなアーキテクチャの選択とトレーニングスキームを組み合わせることで、さらに高性能なモデルへの道を開いており、Pathwaysのビジョンに近づいています。「単一のAIシステムで、数千または数百万のタスクを一般化します。その理由は、さまざまなタイプのデータを理解し、並外れた効率性で実行するためです。」
言語モデルでは、前のトークンが与えられると、テキストのシーケンスにおける次のアイテムやトークンを予測する。このようなモデルが繰り返し使用され、予測された出力が入力としてフィードバックされる場合には、そのモデルは自己回帰と呼ばれる。Transformerディープラーニングアーキテクチャに基づく自動回帰言語モデルは、多くのNLPタスクで最先端のパフォーマンスを記録している。多くの研究者が非常に大規模なTransformerモデルを開発している。これらの大規模なモデルのトレーニングは大きなチャレンジである。それは、多くの場合、そのモデルは単一のGPUまたはTPUアクセラレータのメモリに収まらないほど大きく、大規模なトレーニングデータセットの処理には数時間、場合によっては数日かかるためである。
昨年末、GoogleはPathwaysと呼ばれるシステムを開発する計画を発表した。これは新しいAIアーキテクチャで、さまざまなタスクとデータタイプを処理するために設計されている。この作業の一環として、彼らはTPUアクセラレータを大規模に使用するためのオーケストレーションレイヤを開発した。PaLMチームはPathwaysを使って、「パイプラインの並列処理を使うことなく」6144TPUを使うようにトレーニングプロセスをスケールさせた。Pathwaysを使うことで、トレーニングも効率化した。FLOP使用率モデルに基づいて、GPT-3の場合が21.3%効率化されたのに対して、PaLMトレーニングは46.2%効率化された。
類似のモデルと同様に、PaLMでは最初に自己監視学習によって事前にトレーニングされている。トレーニングでは、Webページ、ウィキペディア、書籍、およびオープンソースコードリポジトリから抽出された大きなテキストコーパスが使われている。PaLMでは、英語のみのNLPタスクでは新たに最先端の記録を樹立し、多言語タスクでは「競争力のある」パフォーマンスを実現している。それに加えて、text-to-codeとcode-to-codeのタスクのいくつかで「極めて優れた」結果を達成しており、OpenAIのDavinci Codex APIと同等あるいはそれを超えるパフォーマンスを出している。研究者は、ジョークの説明を含む、2つの多段階推論タスクでもPaLMのパフォーマンスを調査した。
入力: ニューラルネットワークを10,000回ランダムに再起動しようとしましたが、過剰適合であると非難されました。「良い種(seed)は罰を受ける」でしょう。
モデル出力: このジョークは言葉をもじったものです。ニューラルネットワークは、データから学習できるコンピュータープログラムです。「種(seed)」は、乱数ジェネレーターを初期化するために使われる数値です。「良い種」とは、良い乱数ジェネレーターを生成する数値です。「良い行い(deed)は罰を受ける」という言葉は、何か良いことをしたときに、それに対して罰せられることもあることを意味します。
PaLMチームのメンバーのWilliam Fedus氏は、Twitterスレッドでこの作業に関する彼の考えのいくつかを共有した。彼の反応は全体的に肯定的であったが、Fedus氏は改善すべき2つの領域に注目した。
このモデルはTPUv4で非常に効率的に実行されますが、モデルのサイズに基づいて計算効率が低下します。この計算バジェットに対して540Bパラメーターは大きすぎます...[また]PaLMはデコーダーのみですが、エンコーダー・デコーダーモデルの方が細かい調整には優れていることがわかっています。
いくつかのNLPベンチマークリーダーボードにおけるPaLMのランクは、Papers with Codeで確認できる。