GoogleがCompute Engine A2 VMでクラウド初のNIVIDIA Ampere A100 GPUをローンチ

原文(投稿日：2020/07/16)へのリンク

先日のブログ記事でGoogleは、NVIDIA Ampere A100 Tensor Core GPUをベースとした、Accelerator-Optimized VM(A2)ファミリをGoogle Compute Engineに導入することを発表した。A2は単一VMで最大16GPUを提供する、パブリッククラウドとしては初のA100ベースのサービスである。

GoogleのA2ファミリVMは、トレーニングや推論に関するカスタマのコンピュータパフォーマンス向上を目的にデザインされた。A2は、NVIDIA Ampereアーキテクチャに基づいて新たに開発された、NVIDIA A-100 Tensor Coreグラフィックプロセッサを装備し、ブログ記事によれば、前世代のGPUとの比較で最大20倍の計算能力と、40GBのハイパフォーマンスHBM2 GPUメモリを提供する。さらにA2 VMには、最大96のIntel Cascade LakevCPU、オプションとしてGPUにより高速なデータフィードを行うワークロード用のローカルSSD、最大100Gbpsのネットワークが提供される。

さらに厳しい要件を抱えるカスタマのために、A2には、16台のA100 GPUで構成されるa2-megagpu-16gインスタンスが用意されている。これは、合計640GBのGPUメモリ、1.3TBのシステムメモリ、最大9.6TB/秒の統合帯域を持つNVSwitchによる全体接続を備える。

出典: https://cloud.google.com/blog/products/compute/announcing-google-cloud-a2-vm-family-based-on-nvidia-a100-gpu

カスタマのGPU計算能力へのニーズによりマッチするように、もっと小さなコンフィギュレーションも用意されており、1～16のGPU、2種類のCPU、GPUへのネットワークレシオによる、5つのコンフィギュレーションから選択することができる。さらに個々のGPUは、Ampereのマルチインスタンスグループ(MIG)機能を使用することによって、最大7つのGPUインスタンスに分割することも可能だ。

NVIDIAでAccelerated Computingを担当する、ジェネラルマネージャでVPのIan Buck氏は先日、同社のブログ記事に、GCPでのA-100提供について書いている。

クラウドデータセンタでのA100は、AIのトレーニングや推論、データ分析、化学計算、ゲノム分析、最先端の画像分析、5Gサービスなど、広範な計算集中型アプリケーションを支援することが可能です。

A2ファミリの導入によってGoogleは、一般的な計算処理からアクセラレータ最適化マシンまで、同社の定義済VMとカスタムVMのポートフォリオをさらに拡大し、先頃Intelチップセット(AVX-512)で動作する、汎用目的かつメモリ最適化されたVMファミリを新たにリリースしたMicrosoftや、InferentiaチップベースのEC2 Inf1インスタンスをリリースしたAWSなど、他クラウドベンダとの競合を続けていく。これら新タイプのVMの多くは、AIやマシンラーニングに関するワークロードを持つカスタマを対象としたものだ。

Constellation Research Inc.のプリンシパルアナリストでVPのHolger Mueller氏は、次のように語っている。

クラウドのリーダシップをめぐる争いの中心はAI戦争です。これは企業のAIロードを、それぞれのベンダのクラウドに引き寄せるための戦いなのです。その中心にあるのは、クロスクラウドプラットフォームとオンプレミスオプションを提供する、NVidiaのようなプラットフォームベンダです。ですから、GoogleがNVidiaの最新プラットフォームを導入することによって、企業幹部(CxO)はAIワークロードをオンプレミス間や(Google)クラウドへ、簡単に移動できるようになるのです。

さらに氏は言う。

3番手のベンダであるGoogleは、ワークロードを引き寄せるために、よりオープンで、よりクリエイティブでなければなりません — そしてこれは、Googleの戦略のもうひとつの例なのです。対象的に、上位ベンダであるAWSとAzureの戦略は、依然としてAIロードを独自のクラウドコンピューティングアーキテクチャへ移行しようとするものです。ユーザ企業の幹部は、大部分のテクノロジベンダが依然としてロックインを望んでいることを認識し、便利さや速度とロックインの間にあるリスクのバランスを取らなくてはなりません。

現時点ではA2 VMファミリはアルファ版であり、サインアップによってアクセスを要求することができる。さらにGoogleは、一般公開と価格情報を年内に提供予定であると述べるとともに、Google Kubernetes Engine、Cloud AI Platformなど他のサービスでもNvidia A100をサポートする予定である、としている。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方