Meta社、これまでで最大のオープンソースモデルとなるLlama 3.1 405Bをリリース

原文リンク(2024-08-01)

Meta社は最近、最新の言語モデルLlama 3.1 405Bを発表した。このAIモデルは、8Bと70Bバージョンも含む新しいLlamaモデルの中で最大のものである。4,050億のパラメータ、15兆のトークン、16,000のGPUを持つLlama 3.1 405Bは、様々な印象的な機能を提供する。

「質の高い基盤モデルの開発には、データ、スケール、複雑性の管理という3つの重要なレバーがあると私たちは考えています。私たちは開発プロセスにおいて、これら3つのレバーの最適化を追求しています。これらの改善には、事前トレーニングデータに対するより慎重な前処理とキュレーションパイプラインの開発と、事後トレーニングデータに対するより厳格な品質保証とフィルタリングアプローチの開発が含まれます。」 - Meta AI

発表後、いくつかのクラウドベンダーがLlama 3.1 405Bの実行のサポートを発表した。405Bは、Databricks、Dell、Nvidia、IBM、Snowflake、Scale AIなどのプロバイダーでリリースされた。「Amazon Bedrockは、Llamaで生成AIアプリケーションを構築するためのターンキー方式を提供する」とAmazonは書いている。「サーバーレスAPIエンドポイントとしてAzure AIのModels-as-a-Serviceを通じて利用可能なLlama 3.1 405B」をマイクロソフトは発表した。Cloudflareは、「我々は、Meta社のローンチパートナーの1社として、彼らの最新のLlama 3.1 8Bモデルを利用可能にすることに興奮している」と述べた。Groqは、Llama 3.1 405Bへの早期APIアクセスは、現在一部の顧客にのみ提供されていると述べた。

オープンソースのモデルには128kトークンのコンテキストウィンドウがあり、ユーザーはプロンプトに数百ページのコンテンツを入力できる。多言語に対応しており、8つの言語をサポートしている。英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語だ。このモデルには、ウェブ検索、数学の推論、コード実行のためのツールも付属している。

「Llamaの旧バージョン（Touvron et al., 2023a,b）と比較して、事前学習と事後学習に使用するデータの量と質の両方を改善した。これらの改善には、事前学習データのより慎重な前処理とキュレーション・パイプラインの開発と、事後学習データのより厳密な品質保証とフィルタリング・アプローチの開発が含まれる。Llama 2の1.8Tトークンに対して、Llama 3は約15Tの多言語トークンのコーパスで事前学習をします」とMeta社は書いている。

Llama 3.1モデルのもっとも重要な点は、オープンソースであることだ。ユーザーはウェイトをダウンロードし、自分のアプリケーションで使用できる。そのベンチマーク・スコアはGPT-4oやClaude 3.5 Sonnetに近く、時にはそれを上回ることさえある。結果はモデルカードで見られる。

Scale AI のSEALリーダーボードによると、Llama 3.1 405Bは数学と推論で2位、コーディングで4位、命令に従う動作で1位となっている。正確な性能はユースケースによるが、トップクラスのクローズドLLMと同等になると予想される。

現在、いくつかの技術系企業が主要なクローズド・モデルを開発しています。しかし、オープンソースはその差を急速に縮めています。昨年のLlama 2は、フロンティアの後塵を拝した旧世代のモデルに匹敵するものでしかありませんでした。今年、Llama 3は最先端モデルに匹敵し、いくつかの分野でリードしています。 -Mark Zuckerberg

Llama 3.1 405Bのリリースは、誰もがGPT-4クラスの大規模言語モデルを無料でダウンロードし、自分のハードウェアで実行できる初めての機会となる可能性がある。しかし、Meta社は、デスクトップPCの能力を超える「シングル・サーバー・ノード」上で動作できるとしているため、ユーザーは依然として強力なハードウェアを必要とするだろう。Llama 3.1 405Bのリリースは、技術的な成果だけでなく、AI業界における戦略的な動きでもある。

特筆すべきは、これらのモデルはマルチモーダルではなく、画像を理解したり作成したりはしないということだ。Meta社は、マルチモーダルなLlamaが登場することを約束している。このモデルについてもっと知りたい開発者は、HuggingFace Hubで見つけるか、技術論文で読める。

作者について

Andrew Hoblitzell

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Andrew Hoblitzell

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

Argo CD 3.3、安全なGitOps削除と円滑な日常運用を実現

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

Meta社、これまでで最大のオープンソースモデルとなるLlama 3.1 405Bをリリース

作者について

Andrew Hoblitzell

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。