NVIDIAが次世代AIハードウェアH100 GPUとGrace CPUスーパーチップを発表

原文(投稿日：2022/05/03)へのリンク

最近のGTC会議で、NVIDIAは、AIコンピューティング用の次世代プロセッサを発表した。H100 GPUとGrace CPUスーパーチップである。H100はNVIDIAのHopperアーキテクチャをベースとしており、そこにはAIモデルのトレーニングを高速化するためのTransformer Engineが含まれている。Grace CPUスーパーチップは144個のArmコアを備えており、SPECrate 2017_int_baseベンチマークでNVIDIAの現在のデュアルCPU製品の性能を上回っている。

NVIDIAの創設者兼CEOのJensen Huang氏は基調講演でその発表をした。AIトレーニングを加速するためのHopperアーキテクチャには革新的な機能が含まれている。例えば、1秒あたりの浮動小数点演算処理（FLOPS）性能が向上した高速Tensorコアや、セキュリティとプライバシーを向上させるNVIDIAのコンフィデンシャルコンピューティングテクノロジなどがある。このアーキテクチャをベースに構築されたH100 GPUは、PCI Express Gen 5（PCIe 5）とHBM3をサポートする最初のGPUである。Grace CPU Superchipは2つのCPUチップを含むシングルソケットパッケージである。この2つのCPUチップは、NVIDIAの高速NVLink-C2Cテクノロジを通して接続される。Huangの基調講演では、NVIDIAの新しいチップを「世界のAIインフラストラクチャのエンジンであり、企業がAI主導のビジネスを加速するために使用するもの」と位置付けている。

Transformerディープラーニングモデルは、多くのAIタスク、特にGPT-3などの大規模な言語モデルで一般的に選択されている。これらのモデルのトレーニングには、大量のデータセットと、数週間ではないにしても何日もの計算時間が必要である。H100 GPUには、8ビット（FP8）と16ビット（FP16）の浮動小数点演算を動的に混合できるTransformer Engineが含まれている。H100は、より低い精度で動作し、全体的なFLOPSの向上をサポートすることで、前世代のAmpere GPUと比較して桁違いの高速化を実現できる。全体として、NVIDIAは、175BパラメーターGPT-3モデルのトレーニングを6倍、エキスパートモデルの395Bパラメーター混合で最大9倍高速化できると述べている。計算時間は7日から20時間に短縮されている。

このチップには、新たに動的計画法命令（DPX）も含まれている。これにより、動的計画法アルゴリズムがAmpereと比較して最大7倍高速化される。ルーティングの最適化やタンパク質フォールディングなどのアプリケーションでパフォーマンスが向上する。クラウド環境でのマルチテナント操作をサポートするために、H100にはセキュアマルチインスタンスGPU（MIG）とコンフィデンシャルコンピューティングテクノロジが含まれている。これにより、最大7つの仮想GPUに分割することができ、そこでテナントデータのプライバシーを維持することができる。

Grace CPU Superchipは、昨年発表されたGrace Hopper Superchipの次のイテレーションである。Grace CPUとHopperベースのGPUを1つのチップに組み合わせたものである。新しいチップは2つのGraceCPUを組み合わせたものである。この2つはNVIDIAのNVLink-C2Cインターコネクトを使って接続される。各CPUはArm v9アーキテクチャをベースとしており、1TB/秒のメモリ帯域幅を備え、500Wの電力しか消費しない。このチップは、Omniverse、NVIDIA AI、NVIDIAHPCを含むすべてのNVIDIAソフトウェアスタックをサポートする。NVIDIAのConnectX-7 NICを使うと、チップは最大8つの外部HopperベースのGPUをサポートできる。

何人かのユーザがHacker Newsのスレッドでこの発表についてコメントしている。一人が次のように記述している。

NVIDIAは、データセンター製品の垂直統合を続けている。彼らはInfiniBandを入手するためにMellanoxを買収した。彼らはARMを買収しようとしたが、それはうまくいかなかった。しかし、とにかく彼らはCPUを構築、バンドルしている。コンピューティングの面ではるかに前を進んでいるとき、あなたを阻むもののすべては周辺機器となるため、彼らは完全なソリューションをまとめようとしている。

NVIDIAのGPUは、AI処理を加速するための一般的な選択肢である。今年の初めに、InfoQは最新のMLPerfベンチマークについて報告した。そこで、NVIDIAは8つのタスクのうち7つで最高の結果を載せている。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

生成AIの実践的応用

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

JetBrains IDE RustRoverが無償の非商用ライセンスで正式リリース

Slack、ASTと大規模言語モデルを組み合わせて15,000の単体テストの80%を自動変換する

CO2.js、開発者によるアプリケーションの二酸化炭素排出量の追跡を支援

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約

QCon London：Meta社、モノリシック・アーキテクチャを用いわずか5ヶ月でThreadsをリリース

ソフトウェア・エンジニアリングの役割からマネジメントの役割へ移行する

持続可能なソフトウェア開発の方法

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

AWS、生成AIアプリケーション構築のためのAmazon Bedrock Studioを発表

スタンフォード大学による、"2024 AI Index Report"公開：AI規制の成長と生成AI投資

Meta社、効率的な長配列モデリングのためのMEGALODON LLMをオープンソース化

GitHubはどのようにコードプッシュ処理の信頼性を向上させたか

UberがGoogle Cloud Platformでビッグデータ・インフラを近代化するまでの道のり

AWS、Amazon S3へのオブジェクトのアップロードにマルウェア検知機能を導入

InfoQ Live Roundtable

InfoQ Dev Summit Munich

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方

NVIDIAが次世代AIハードウェアH100 GPUとGrace CPUスーパーチップを発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。