Meta は、AI 研究を加速し、同社のメタバース構築を支援することを目的とした AI Research SuperCluster (RSC) スーパーコンピュータを発表した。RSC は、同社の何百もの異なる言語で動作し、新しくより優れた AI モデルを構築し、新しい拡張現実ツールを開発するのに役立つ。
次世代の高度な AI を開発するには、毎秒数千億の操作が可能な強力な新しいコンピュータが必要になる。Meta の研究者は RSC を使用して自然言語処理 (NLP) とコンピュータービジョンの研究用の大規模モデルをトレーニングし始めている。これは、いつか Meta のビジネス全体で数兆のパラメータを使用してモデルをトレーニングすることを目的としている。Facebook と Instagram でのヘイトスピーチの検出に使用されるコンテンツモデレーションアルゴリズムから、メタバースでいつか利用できる拡張現実機能である。RSC は、アクション、サウンド、またはイメージが有害であるか良性であるかを判断するためにマルチモーダル信号を使用したモデルをトレーニングすることができる。Meta は、これが今日の Meta のサービスだけでなく、メタバースでも人々を安全に保つのに役立つと主張している。
Meta はまた、グラフィックス処理チップのパフォーマンスに依存しているため、従来のスーパーコンピュータの測定方法とは異なる方法でコンピュータの能力を定義している。これは、イメージの内容を理解し、テキストを分析し、言語間の翻訳ができる深層学習アルゴリズムの実行に役立つ。
AI スーパーコンピュータは、複数の GPU を組み合わせてコンピューティングノードを構築し、それらを高性能なネットワークファブリックで接続し、それら GPU 間の高速通信を可能にしている。RSC は現在、コンピューティングノードとして計 6,080 の GPU の計 760 の NVIDIA DGX A100 システムで構成されている。各 DGX はオーバーサブスクリプションのない NVIDIA Quantum 1600 Gb/s InfiniBand 2 レベル Clos ファブリックを介して通信する。RSC のストレージ階層には、175 ペタバイトの Pure Storage FlashArray、46 ペタバイトの Penguin Computing Altus システムのキャッシュストレージ、および 10 ペタバイトの Pure Storage FlashBlade がある。
2022年の終わりまでに、RSC は計約 16,000 の GPU を含み、エクサバイトのデータセットで1兆を超えるパラメータを使用して AI システムをトレーニングできるようになる。この素の GPU 数は、システムの全体的なパフォーマンスの狭い指標を表しているに過ぎない。たとえば、研究所である OpenAI で構築された Microsoft の AI スーパーコンピュータは、10,000の GPU から構築されている。
RSC を使用して次世代の AI インフラストラクチャを構築することは、メタバースを強化し、AI をより広く進歩させる基盤技術を支援することになる。