Metaが手がけるパラメータ数10分の1の大規模言語モデルLLaMA

Meta AI はパラメータ数が10分の1にもかかわらずGPT-3 などのモデルよりも優れた性能を持ち、PaLM と競合する新しい大規模言語モデル、Language Large Models Meta AI（LLaMA）をリリースした。70億から650億までのパラメータの言語モデルのセットがリリースされており、パラメータ数はLLaMAのバージョンによって決まる。

上のグラフはLLaMA 7B（70億パラメータのバージョン）がGPT-3やPaLMよりもパラメータが少ない大規模言語モデルであるにも関わらず、相応の量のトレーニングを与えるとそれらを上回る性能を発揮できることを示している。

データセットには、GitHub、Wikipedia、arXiv、Stack Exchange などの公開ソースからの 1.4兆個のトークンが含まれている。トークン化プロセスは、SentencePiece ソフトウェアを採用して、バイトペアエンコーディングで実施している。

ディープラーニングモデルアーキテクチャは、トランスフォーマーモデルを採用している。Meta AI の研究者たちは、各トランスフォーマーのサブレイヤーの入力を正規化することで、事前正規化を行っている。さらに活性化関数であるSwiGLUがLLaMAで採用された。彼らはまた、回転に基づく新しい位置埋め込み表現、つまり、ロータリー埋め込みと埋め込み表現を選択した。研究者たちは、AdamW などの適応型勾配アルゴリズムを採用して、従来の Adam のモデル汎化を大幅に向上させ、さらに勾配クリッピングのしきい値を1.0としている。

効率的なトランスフォーマー実装である xformers は、メモリ使用量と実行時間を削減する。さらに、Meta AI の研究者たちは、チェックポイントを使用して、バックワードステップ中の活性化の数を削減してトレーニングを改善した。

LLaMAはパラメータ数が少ないため、トレーニング時間を確保しやすく、そのおかげで自然な質問、常識的な推論、数学的な推論などの言語タスクで、PaLM や GPT-3 よりも優れた性能を発揮する。たとえば、完全一致を使用して、予測された答えが正解と同一である文書の割合を測定すると、LLaMA 33BはGPT-3（14.6）、PaLM-540B（21.2）、Chinchilla-70B（16.6）よりも優れた24.9という記録である。

出典：LLaMA: Open and Efficient Foundation Language Models

LLaMAは、テキスト生成や会話のやり取りや書かれた資料の要約、あるいは数学定理を解決したりタンパク質構造を予測したりするような複雑なタスクにも使用できる。ただし、コミュニティの主要な用途はテキスト生成や会話のやり取りに向かっているようだ。

大規模な言語モデルはトレーニングデータのバイアスを再現・増幅させ、有害または攻撃的なコンテンツを生成することが示されている。LLaMA 65BはGPT-3と比較して、性別や宗教などのトピックでわずかにバイアスが少ない。

クラウドからダウンロードした重みデータ（学術目的のみのライセンスが付与されている）に基づいて推論コードを実行するには、ここを参照すること。

torchrun --nproc_per_node MP example.py --ckpt_dir $TARGET_FOLDER/model_size --tokenizer_path $TARGET_FOLDER/tokenizer.model

また、LLaMAのGitHubページでモデルの実装を確認できる。さらに、HuggingFaceでLLaMA 7Bを使ったプロンプトUIが開発されている。重みデータは学術機関を超えてライセンスされていないにもかかわらず、トレントファイルを使ってダウンロードできるようになっている。

SNSでは、GPT-3やPaLMと同等の性能で計算負荷が低いことが好評である一方、重みデータを学術機関とのみ共有していることについて疑問の声も出ている。また、AIコミュニティは、GPT-3やPALMと比較した推論速度についても言及している。

作者について

Bruno Santos

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Metaが手がけるパラメータ数10分の1の大規模言語モデルLLaMA

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。