Meta社は、新しいLlama 4ファミリーの最初のモデルであるScoutとMaverickを正式にリリースした。これは、同社のオープンウェイト大規模言語モデルエコシステムにおける大きな前進となる。ネイティブのマルチモーダルアーキテクチャとMixture of Experts(MoE)フレームワークで設計されたこれらのモデルは、画像理解からロングコンテキストの推論まで、より幅広いアプリケーションをサポートすることを目的としている。
Llama 4 Scoutには、16個のエキスパートに分散された170億のアクティブパラメータが含まれており、単一のNVIDIA H100 GPUで実行できるように最適化されている。1,000万トークンのコンテキストウィンドウをサポートしており、汎用AIタスクに適している。一方、Llama 4 Maverickは、同じく170億のアクティブパラメータを持つが、128個のエキスパートを利用し、推論とコーディングにおいて強化された機能を提供し、Meta社のベンチマークに基づく同クラスのいくつかのモデルを上回る性能を発揮している。
どちらのモデルも、Meta社の現在もトレーニング中のフラッグシップモデル、Llama 4 Behemothから抽出されたもので、2,880億のアクティブパラメータと約2兆の総パラメータを持つ。Meta社は、ベヒーモスが複数のSTEMベンチマークでGPT-4.5、クロード3ソネット、ジェミニ2.0プロを上回ると主張している。まだ完全にはリリースされていないにもかかわらず、Behemothは小型のScoutやMaverickモデルの重要なトレーニングの教師として機能している。
出典メタAIブログ
モデルアーキテクチャだけでなく、Meta社は、軽量な教師あり微調整、強化学習、マルチモーダル入力を扱うための新しいカリキュラム設計を含む、トレーニングおよびポストトレーニング戦略の刷新を強調した。これらの変更は、効率性を維持し、モデルのバイアスを低減しながら、困難なタスクのパフォーマンスを向上させることを目的としていた。
Llama 4のベンチマーク数値は、Gemini 2.0やGPT-4のような業界リーダーと遜色ないパフォーマンスを示しているが、初期のユーザーからは懐疑的な声も上がっている:
彼らはひどいのか、それともリリースや実装に何か問題があるのかのどちらかです。彼らは、私が試したことすべてにおいて劣っているようです。20-30Bよりもひどいし、一般的な知識が全くないです。
別のRedditユーザーはこう付け加えた:
これは私の経験でもあります。私は純粋に、彼らが今間違った設定で動いていて、魔法のような修正でベンチマークスコアが主張するレベルのパフォーマンスを発揮してくれることを期待しています。
この分野の専門家の中には、矛盾を指摘している者もいる。AIの専門家であるUli Hitzel氏は、ある例を挙げている:
Llama 4 Maverickの最初の結果は確かに印象的だが、見てほしい。Maverickには128人のエキスパートがいますが、"strawberry"にはTが2つあると言っています。(RのカウントからTのカウントに移ったんだ...)これは、もっとも先進的でむき出しのLLMであっても、適切なチェックとバランスを備えた適切に設計されたエージェント的ワークフローに統合しなければ、まったく愚かな結果を生み出す可能性があることを思い出させてくれます。
Meta社は、これらのパフォーマンスに関する懸念について、まだ公的なチャンネルでは直接触れていないが、開発者や研究者が自らモデルを試すことを奨励している。Llama 4 ScoutとMaverickは現在llama.comとHugging Faceでダウンロード可能だ。