Microsoftは、Azure ND A100 V4クラウドGPUインスタンスの一般向け提供を発表

原文(投稿日：2021/06/29)へのリンク

最近、Microsoftは、NVIDIA A100 Tensor Core GPUを搭載したAzure ND A100 v4 Cloud GPUインスタンスの一般向け提供を発表した。この仮想マシン（VM）は、人工知能（AI）や機械学習（ML）の処理など、高いパフォーマンスが必要で処理負荷が大きい顧客を対象としている。

当パブリッククラウドベンダーは、AI処理用のハイパフォーマンスコンピューティング（HPC）対応の仮想マシンとして、パブリックプレビュー版でAzure ND A100 v4 Cloud GPUをリリースした。目標は、スケールと高度なテクノロジーに関して、業界の他の大型AIスーパーコンピューターと競争するための大量のコンピューティングパワーを提供することである。このND A100 v4 VMシリーズは現在GAである。

AWSやGoogle Cloudなどの他のパブリッククラウドプロバイダーも、ストレージ、CPU、メモリ、ネットワーク容量のさまざまな組み合わせで幅広いインスタンスタイプを提供しているため、顧客はターゲットとする処理負荷の要件に合わせてリソースを拡張できる。たとえば、Google Cloudは、NVIDIA Ampere A100 Tensor Core GPUをベースにしたアクセラレータ最適化VM（A2）ファミリを3月初めに導入した。

シニアプログラムマネージャーのIan Finder氏によるAzure Computeのブログ投稿によると、プレリリースのパブリックスーパーコンピューティングクラスター上で164台のND A100 v4仮想マシンを使用したAccelerated HPC Infrastructureベンチマークでは、16.59ペタフロップスのハイパフォーマンスリンパック（HPL）の結果が得られた。パブリッククラウドインフラストラクチャでの処理結果は、ジョブが実行されたリージョンに基づいて、2020年11月時点のトップ500の世界最速スーパーコンピューターのうちのトップ20や、ヨーロッパにおけるトップ10の範囲に含まれる。

Finder氏は、Azure Computeのブログ投稿でも次のように述べている。

事実上の業界標準であるHPCおよびAIツールとライブラリを利用して構築するため、顧客は、特別なソフトウェアやフレームワークなしでND A100v4のGPUと独自の相互接続機能を活用できす。その際に、最もスケーラブルなGPUアクセラレーションAIおよびHPCの処理を特別な設定なしにサポートするものと同じNVIDIA NCCL2ライブラリを使い、基盤となるネットワークトポロジや配置を気にする必要ありません。同じVMスケールセット内でVMをプロビジョニングすると、相互接続ファブリックが自動的に構成されます。

さらに、NVIDIAのAccelerated Computingのゼネラルマネージャー兼バイスプレジデントであるIan Buck氏は、NVIDIAのブログ投稿に次のように書いている。

NVIDIAはAzureと協力して、この新しいスケールアップおよびスケールアウトAIプラットフォームを設計しました。これによって、革新的なNVIDIA AmpereアーキテクチャGPU、NVIDIAネットワーキングテクノロジー、およびAzureの高性能相互接続と仮想マシンファブリックのパワーを組み合わせて、みんながAIスーパーコンピューティングを享受できるようになります。

ND A100 v4 VMシリーズは、単一の仮想マシン（VM）と8つのNVIDIA AmpereアーキテクチャベースのA100 TensorコアGPUからスタートとなる。ただし、NVIDIA HDR 200Gb/s InfiniBandリンクを介して配信されるVMあたり1.6 Tb/sの相互接続帯域幅（GPUごとに1つ）を使って、単一クラスター内で最大数千のGPUに拡張できる。料金は1時間あたり27.20からスタートする。詳細については、料金ページをご覧ください。

出典: https://azure.microsoft.com/en-us/blog/azure-announces-general-availability-of-scaleup-scaleout-nvidia-a100-gpu-instances-claims-title-of-fastest-public-cloud-super/

さらに、ND A100 v4は、インタラクティブなAI開発、分散トレーニング、バッチ推論、ML Opsによる自動化のために、Azure Machine Learning（AML）サービスも利用できる。また、同社は、顧客がフルマネージドのKubernetesサービスであるAzure Kubernetes serviceを使用できるようにする予定である。そのサービスによって、NVIDIA A100 GPUを使用してND A100 v4 VMにコンテナ化されたアプリケーションをデプロイおよび管理できるようになる。

ND A100 v4 VMは現在、米国東部、米国西部2、西ヨーロッパ、米国中南部のAzureリージョンで利用できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco