Meta社は最近、最新の言語モデルLlama 3.1 405Bを発表した。このAIモデルは、8Bと70Bバージョンも含む新しいLlamaモデルの中で最大のものである。4,050億のパラメータ、15兆のトークン、16,000のGPUを持つLlama 3.1 405Bは、様々な印象的な機能を提供する。
「質の高い基盤モデルの開発には、データ、スケール、複雑性の管理という3つの重要なレバーがあると私たちは考えています。私たちは開発プロセスにおいて、これら3つのレバーの最適化を追求しています。これらの改善には、事前トレーニングデータに対するより慎重な前処理とキュレーションパイプラインの開発と、事後トレーニングデータに対するより厳格な品質保証とフィルタリングアプローチの開発が含まれます。」 - Meta AI
発表後、いくつかのクラウドベンダーがLlama 3.1 405Bの実行のサポートを発表した。405Bは、Databricks、Dell、Nvidia、IBM、Snowflake、Scale AIなどのプロバイダーでリリースされた。「Amazon Bedrockは、Llamaで生成AIアプリケーションを構築するためのターンキー方式を提供する」とAmazonは書いている。「サーバーレスAPIエンドポイントとしてAzure AIのModels-as-a-Serviceを通じて利用可能なLlama 3.1 405B」をマイクロソフトは発表した。Cloudflareは、「我々は、Meta社のローンチパートナーの1社として、彼らの最新のLlama 3.1 8Bモデルを利用可能にすることに興奮している」と述べた。Groqは、Llama 3.1 405Bへの早期APIアクセスは、現在一部の顧客にのみ提供されていると述べた。
オープンソースのモデルには128kトークンのコンテキストウィンドウがあり、ユーザーはプロンプトに数百ページのコンテンツを入力できる。多言語に対応しており、8つの言語をサポートしている。英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語だ。このモデルには、ウェブ検索、数学の推論、コード実行のためのツールも付属している。
「Llamaの旧バージョン(Touvron et al., 2023a,b)と比較して、事前学習と事後学習に使用するデータの量と質の両方を改善した。これらの改善には、事前学習データのより慎重な前処理とキュレーション・パイプラインの開発と、事後学習データのより厳密な品質保証とフィルタリング・アプローチの開発が含まれる。Llama 2の1.8Tトークンに対して、Llama 3は約15Tの多言語トークンのコーパスで事前学習をします」とMeta社は書いている。
Llama 3.1モデルのもっとも重要な点は、オープンソースであることだ。ユーザーはウェイトをダウンロードし、自分のアプリケーションで使用できる。そのベンチマーク・スコアはGPT-4oやClaude 3.5 Sonnetに近く、時にはそれを上回ることさえある。結果はモデルカードで見られる。
Scale AI のSEALリーダーボードによると、Llama 3.1 405Bは数学と推論で2位、コーディングで4位、命令に従う動作で1位となっている。正確な性能はユースケースによるが、トップクラスのクローズドLLMと同等になると予想される。
現在、いくつかの技術系企業が主要なクローズド・モデルを開発しています。しかし、オープンソースはその差を急速に縮めています。昨年のLlama 2は、フロンティアの後塵を拝した旧世代のモデルに匹敵するものでしかありませんでした。今年、Llama 3は最先端モデルに匹敵し、いくつかの分野でリードしています。 -Mark Zuckerberg
Llama 3.1 405Bのリリースは、誰もがGPT-4クラスの大規模言語モデルを無料でダウンロードし、自分のハードウェアで実行できる初めての機会となる可能性がある。しかし、Meta社は、デスクトップPCの能力を超える「シングル・サーバー・ノード」上で動作できるとしているため、ユーザーは依然として強力なハードウェアを必要とするだろう。Llama 3.1 405Bのリリースは、技術的な成果だけでなく、AI業界における戦略的な動きでもある。
特筆すべきは、これらのモデルはマルチモーダルではなく、画像を理解したり作成したりはしないということだ。Meta社は、マルチモーダルなLlamaが登場することを約束している。このモデルについてもっと知りたい開発者は、HuggingFace Hubで見つけるか、技術論文で読める。