AWSがMLおよびHPC用のEC2 P4dインスタンスを発表

原文(投稿日：2020/11/09)へのリンク

Amazon Web Services (AWS) は先頃、UltraClusters機能を備えたElastic Compute Cloud (EC2) P4dインスタンスが利用可能になったことを発表した。これらのGPUを利用したインスタンスは、前世代のP3インスタンスよりも高速なパフォーマンス、低コスト、機械学習 (ML) トレーニングおよびハイパフォーマンスコンピューティング (HPC) 用のGPUメモリを提供する。

新しいP4dインスタンスには、8つのNVIDIA A100 Tensor Core GPUと400Gbpsのネットワーク帯域幅がある。これらのGPUは、単一インスタンスで最大2.5ペタフロップスの混合精度パフォーマンスと320GBの高帯域幅GPUメモリに対応している。マルチノード分散ワークロード全体のスケーリングのボトルネックを解消するために、AWSはNVIDIA GPUDirect RDMAネットワークインターフェイスを利用して、サーバ間でGPU間の直接通信を行った。これにより、レイテンシが低くなり、スケーリング効率が高くなる。96個のIntel Xeon Scalable vCPU、1.1TBのシステムメモリ、および各P4dインスタンスの8TBのローカルNVMeストレージはすべて、単一ノードのMLトレーニング時間を短縮するのに役立つ。

AWSは、データサイエンティストやエンジニアが、多くの一般的なMLタスクでサイズが拡大し続けるデータセットを持つ、より大きく複雑なMLモデルを作成できるように、パフォーマンスが3倍速く、コストが60％低く、GPUメモリが2.5倍多いことを約束している。自動運転車のビジョン、自然言語処理、画像分類、オブジェクト検出、および一般的な予測分析のモデルをトレーニングする顧客は、トレーニングの時間とコストの両方を削減したいと考えている。

AWSの最大の顧客の一部は、MLエンジニアが直面する課題と、複数世代のAWS GPUベースのインスタンスがこれらの課題への取り組みにどのように役立ったかについてコメントした。GE Healthcareの人工知能担当VP兼GMのKarley Yoder氏は次のように述べている:

当社の医用画像装置は、データサイエンティストによる処理が必要な大量のデータを生成します。以前のGPUクラスタでは、シミュレーション用にプログレッシブGANなどの複雑なAIモデルをトレーニングし、結果を表示するのに数日かかりました。新しいP4dインスタンスを使用すると、処理時間が数日から数時間に短縮されました。さまざまな画像サイズのモデルのトレーニングで2〜3倍の速度が見られましたが、バッチサイズを大きくするとパフォーマンスが向上し、モデル開発サイクルが速くなり、生産性が向上しました。

Toyota Research InstituteのインフラストラクチャエンジニアリングのテクニカルリードであるMike Garrison氏は、次のように述べている:

前世代のP3インスタンスは、機械学習モデルのトレーニング時間を数日から数時間に短縮するのに役立ちました。追加のGPUメモリとより効率的な浮動形式により、機械学習チームが、さらに高速により複雑なモデルのトレーニングを行えるようになるためP4dインスタンスの利用を楽しみにしています。

現在、P4インスタンスは p4d.24xlarge サイズで提供されており、米国東部および米国西部リージョンで利用できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

MySQL 9.6で外部キー制約とカスケード処理が変更

Anthropicの論文がLLMでの感情様メカニズムの行動影響を検証

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

QCon San Francisco

QCon London 2027