BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Microsoftは、Azure ND A100 V4クラウドGPUインスタンスの一般向け提供を発表

Microsoftは、Azure ND A100 V4クラウドGPUインスタンスの一般向け提供を発表

ブックマーク

原文(投稿日:2021/06/29)へのリンク

最近、Microsoftは、NVIDIA A100 Tensor Core GPUを搭載したAzure ND A100 v4 Cloud GPUインスタンスの一般向け提供を発表した。この仮想マシン(VM)は、人工知能(AI)や機械学習(ML)の処理など、高いパフォーマンスが必要で処理負荷が大きい顧客を対象としている。

当パブリッククラウドベンダーは、AI処理用のハイパフォーマンスコンピューティング(HPC)対応の仮想マシンとして、パブリックプレビュー版でAzure ND A100 v4 Cloud GPUをリリースした。目標は、スケールと高度なテクノロジーに関して、業界の他の大型AIスーパーコンピューターと競争するための大量のコンピューティングパワーを提供することである。このND A100 v4 VMシリーズは現在GAである。

AWSやGoogle Cloudなどの他のパブリッククラウドプロバイダーも、ストレージ、CPU、メモリ、ネットワーク容量のさまざまな組み合わせで幅広いインスタンスタイプを提供しているため、顧客はターゲットとする処理負荷の要件に合わせてリソースを拡張できる。たとえば、Google Cloudは、NVIDIA Ampere A100 Tensor Core GPUをベースにしたアクセラレータ最適化VM(A2)ファミリを3月初めに導入した。

シニアプログラムマネージャーのIan Finder氏によるAzure Computeのブログ投稿によると、プレリリースのパブリックスーパーコンピューティングクラスター上で164台のND A100 v4仮想マシンを使用したAccelerated HPC Infrastructureベンチマークでは、16.59ペタフロップスのハイパフォーマンスリンパック(HPL)の結果が得られた。パブリッククラウドインフラストラクチャでの処理結果は、ジョブが実行されたリージョンに基づいて、2020年11月時点のトップ500の世界最速スーパーコンピューターのうちのトップ20や、ヨーロッパにおけるトップ10の範囲に含まれる。

Finder氏は、Azure Computeのブログ投稿でも次のように述べている。

事実上の業界標準であるHPCおよびAIツールとライブラリを利用して構築するため、顧客は、特別なソフトウェアやフレームワークなしでND A100v4のGPUと独自の相互接続機能を活用できす。その際に、最もスケーラブルなGPUアクセラレーションAIおよびHPCの処理を特別な設定なしにサポートするものと同じNVIDIA NCCL2ライブラリを使い、基盤となるネットワークトポロジや配置を気にする必要ありません。同じVMスケールセット内でVMをプロビジョニングすると、相互接続ファブリックが自動的に構成されます。

さらに、NVIDIAのAccelerated Computingのゼネラルマネージャー兼バイスプレジデントであるIan Buck氏は、NVIDIAのブログ投稿に次のように書いている。

NVIDIAはAzureと協力して、この新しいスケールアップおよびスケールアウトAIプラットフォームを設計しました。これによって、革新的なNVIDIA AmpereアーキテクチャGPU、NVIDIAネットワーキングテクノロジー、およびAzureの高性能相互接続と仮想マシンファブリックのパワーを組み合わせて、みんながAIスーパーコンピューティングを享受できるようになります。

ND A100 v4 VMシリーズは、単一の仮想マシン(VM)と8つのNVIDIA AmpereアーキテクチャベースのA100 TensorコアGPUからスタートとなる。ただし、NVIDIA HDR 200Gb/s InfiniBandリンクを介して配信されるVMあたり1.6 Tb/sの相互接続帯域幅(GPUごとに1つ)を使って、単一クラスター内で最大数千のGPUに拡張できる。料金は1時間あたり27.20からスタートする。詳細については、料金ページをご覧ください。


出典: https://azure.microsoft.com/en-us/blog/azure-announces-general-availability-of-scaleup-scaleout-nvidia-a100-gpu-instances-claims-title-of-fastest-public-cloud-super/

さらに、ND A100 v4は、インタラクティブなAI開発、分散トレーニング、バッチ推論、ML Opsによる自動化のために、Azure Machine Learning(AML)サービスも利用できる。また、同社は、顧客がフルマネージドのKubernetesサービスであるAzure Kubernetes serviceを使用できるようにする予定である。そのサービスによって、NVIDIA A100 GPUを使用してND A100 v4 VMにコンテナ化されたアプリケーションをデプロイおよび管理できるようになる。

ND A100 v4 VMは現在、米国東部、米国西部2、西ヨーロッパ、米国中南部のAzureリージョンで利用できる。

この記事に星をつける

おすすめ度
スタイル

BT