Meta社、24000基以上のGPUから成るAIインフラ設計を発表

原文リンク(2024-04-02)

Meta社はこの程、2つの新しいAIコンピューティング・クラスターの設計を発表し、それぞれ24,576基のGPUを搭載している。これらのクラスタはMeta社のGrand Tetonハードウェア・プラットフォームに基づいており、1つのクラスタは現在Meta社の次世代モデルである、"Llama 3"のトレーニングに使用されている。

Meta社は、生成AIの取り組みをサポートするためにこのクラスタを設計した。この2つのクラスタは、ネットワーク・ファブリックが異なる。Llama 3クラスタはコンバージド・イーサネット（RoCE）を介したリモート・ダイレクト・メモリ・アクセス（RDMA）を使用し、もう一方はNVIDIAのQuantum2 InfiniBandを使用している。ストレージレイヤーはMeta社のカスタムTectonicファイルシステムをベースにしており、数千のGPUからのチェックポイントを処理するのに必要な同期I/Oをサポートしている。Meta社によると、以下のように述べられている。

これら2つのAIトレーニングクラスターデザインは、AIの未来に向けた我々の大きなロードマップの一部です。2024年末までには、約60万基のNVIDIA H100に相当する計算能力を備えたポートフォリオの一部として、35万基のNVIDIA H100を含むインフラ構築を継続的に成長させることを目指しています。

Meta社はハードウェアプラットフォームとラック設計をオープンソース化してきた歴史がある。2021年、InfoQはMeta社のZionEXクラスタを取り上げた。InfoQは2022年にGrand Tetonプラットフォームの開発とMeta社のオープンラックデザインを取り上げた。その一環として、Meta社は2011年に同社が設立したOpen Compute Projectに対して寄与した。2023年後半、Meta社とIBMは "AIにおけるオープンイノベーションとオープンサイエンスを支援する "AIアライアンスを立ち上げた。

Meta社が新しいクラスタで直面した大きな課題のひとつは、その規模におけるデバッグの難しさだった。Meta社はHammerspace社と協力し、ストレージシステム用の対話型デバッグツールを構築した。Meta社はまた、分散訓練のトラブルシューティングのための「分散集合フライトレコーダー」にも取り組んだ。

新しいクラスタの開発中、Meta社はノード間通信のパフォーマンスを予測するためにいくつかのシミュレーションを行った。しかし、"箱から出してすぐ"のクラスタは、最適化された小規模なクラスタほど性能が良くなく、ベンチマーク中の帯域幅利用率は極端に変動した。ジョブスケジューラをチューニングし、クラスタ内のネットワークルーティングを最適化した後、この指標は一貫して90％以上となった。

Meta社はまた、クラスタのハードウェアをより活用するために、PyTorchフレームワークの実装にも取り組んだ。例えば、H100 GPUは8ビット浮動小数点演算をサポートしており、これをトレーニングの高速化に利用できる。Meta社は、並列化アルゴリズムと初期化のボトルネックにも取り組み、初期化時間を "時には数時間から数分 "に短縮した。

Meta Clusterに関するHacker Newsのディスカッションでは、何人かのユーザーが、ハードウェアのコストにより、Meta社のような「ハイパースケール」企業とAI分野で競争することが難しくなっていると嘆いていた。AI開発者のDaniel Han-Chen氏はこう述べた。

大手ハイテク企業と競争するもうひとつの方法は、ハードウェアの代わりに、数学とソフトウェアのハッキングを試して、競争の土俵を平らにすることです！モデルのトレーニングはまだ"黒魔術"のようなものなので、ソフトウェア側でそれを高速化することで、資本コストの問題をいくらか解決することができます！

Meta社の他にも、AIプレーヤーたちは大規模な計算クラスターの詳細を発表している。Googleはこの程、新しいCloud TPU v5pアクセラレーター・ハードウェアをベースにしたAIハイパーコンピューターを発表した。14,400基のNVIDIA H100 GPUを搭載したMicrosoft AzureのEagleスーパーコンピューターは、この程HPC Top500で3位にランクインした。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

バーチャルパネル：大規模言語モデルを採用する際の考慮点

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Appleの最新世代CPUに新たなサイドチャネル脆弱性が影響

JetBrainsのAIコーディングエージェントJunieがJetBrains IDEとの緊密な統合を提供

AWSがAmazon Q Developer エージェントに新機能（ドキュメント生成、コードレビュー、ユニットテスト）を追加実装

InfoQの新認定制度、シニア開発者とアーキテクト向けの実践的スキルにフォーカス

Netflixがレジリエンシー向上のためにサービスレベルで優先順位付き負荷制御を提供開始

Netflixの分散カウンターの内部：グローバル・スケールでスケーラブル、正確、リアルタイムなカウント

Webコンテンツアクセシビリティガイドラインを使用したアクセシブルなウェブサイトの作成

SlackがAIを活用したハイブリッドアプローチでEnzymeからReactテストライブラリに移行した方法

インパクトのあるデータ製品戦略を形成する

OpenAIがo3のリリースをキャンセル、GPT 4.5、5のロードマップを発表

PerplexityがDeep Researchを発表：高度な分析のためのAI駆動ツール

MongoDBに代わるオープンソースのFerretDB、バージョン2.0をリリース

Slackが自動化によってアクセシビリティテストを強化

Dropboxの非同期プラットフォームの進化：課題から統一メッセージングシステムモデルへ

PreziのPrometheusからVictoriaMetricsへの道のり

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

InfoQ Dev Summit New York

Login with:

アカウントをお持ちでない方

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。