Meta社はこの程、2つの新しいAIコンピューティング・クラスターの設計を発表し、それぞれ24,576基のGPUを搭載している。これらのクラスタはMeta社のGrand Tetonハードウェア・プラットフォームに基づいており、1つのクラスタは現在Meta社の次世代モデルである、"Llama 3"のトレーニングに使用されている。
Meta社は、生成AIの取り組みをサポートするためにこのクラスタを設計した。この2つのクラスタは、ネットワーク・ファブリックが異なる。Llama 3クラスタはコンバージド・イーサネット(RoCE)を介したリモート・ダイレクト・メモリ・アクセス(RDMA)を使用し、もう一方はNVIDIAのQuantum2 InfiniBandを使用している。ストレージレイヤーはMeta社のカスタムTectonicファイルシステムをベースにしており、数千のGPUからのチェックポイントを処理するのに必要な同期I/Oをサポートしている。Meta社によると、以下のように述べられている。
これら2つのAIトレーニングクラスターデザインは、AIの未来に向けた我々の大きなロードマップの一部です。2024年末までには、約60万基のNVIDIA H100に相当する計算能力を備えたポートフォリオの一部として、35万基のNVIDIA H100を含むインフラ構築を継続的に成長させることを目指しています。
Meta社はハードウェアプラットフォームとラック設計をオープンソース化してきた歴史がある。2021年、InfoQはMeta社のZionEXクラスタを取り上げた。InfoQは2022年にGrand Tetonプラットフォームの開発とMeta社のオープンラックデザインを取り上げた。その一環として、Meta社は2011年に同社が設立したOpen Compute Projectに対して寄与した。2023年後半、Meta社とIBMは "AIにおけるオープンイノベーションとオープンサイエンスを支援する "AIアライアンスを立ち上げた。
Meta社が新しいクラスタで直面した大きな課題のひとつは、その規模におけるデバッグの難しさだった。Meta社はHammerspace社と協力し、ストレージシステム用の対話型デバッグツールを構築した。Meta社はまた、分散訓練のトラブルシューティングのための「分散集合フライトレコーダー」にも取り組んだ。
新しいクラスタの開発中、Meta社はノード間通信のパフォーマンスを予測するためにいくつかのシミュレーションを行った。しかし、"箱から出してすぐ"のクラスタは、最適化された小規模なクラスタほど性能が良くなく、ベンチマーク中の帯域幅利用率は極端に変動した。ジョブスケジューラをチューニングし、クラスタ内のネットワークルーティングを最適化した後、この指標は一貫して90%以上となった。
Meta社はまた、クラスタのハードウェアをより活用するために、PyTorchフレームワークの実装にも取り組んだ。例えば、H100 GPUは8ビット浮動小数点演算をサポートしており、これをトレーニングの高速化に利用できる。Meta社は、並列化アルゴリズムと初期化のボトルネックにも取り組み、初期化時間を "時には数時間から数分 "に短縮した。
Meta Clusterに関するHacker Newsのディスカッションでは、何人かのユーザーが、ハードウェアのコストにより、Meta社のような「ハイパースケール」企業とAI分野で競争することが難しくなっていると嘆いていた。AI開発者のDaniel Han-Chen氏はこう述べた。
大手ハイテク企業と競争するもうひとつの方法は、ハードウェアの代わりに、数学とソフトウェアのハッキングを試して、競争の土俵を平らにすることです!モデルのトレーニングはまだ"黒魔術"のようなものなので、ソフトウェア側でそれを高速化することで、資本コストの問題をいくらか解決することができます!
Meta社の他にも、AIプレーヤーたちは大規模な計算クラスターの詳細を発表している。Googleはこの程、新しいCloud TPU v5pアクセラレーター・ハードウェアをベースにしたAIハイパーコンピューターを発表した。14,400基のNVIDIA H100 GPUを搭載したMicrosoft AzureのEagleスーパーコンピューターは、この程HPC Top500で3位にランクインした。