Hugging Faceは、NVIDIA NIMによる推論サービスの提供開始を発表した。今回の新サービスで、開発者は主要なAIモデルのNVIDIAによる高速化された推論に容易にアクセスできるようになる。
新サービスにより、開発者はNVIDIA DGX Cloud上で動作するNVIDIA NIMマイクロサービスにより最適化された、開発者によるLlama 3ファミリーやMistral AIモデルなどの主要な大規模言語モデルを迅速にデプロイできるようになる。これにより開発者は、Hugging Face Hub上でホストされているオープンソース型AIモデルを用いて迅速にプロトタイプを作成し、本番環境にデプロイできるようになるだろう。
Hugging Faceの推論サービスは、NIMマイクロサービスを活用したNVIDIA DGX Cloud上で提供され、AIデプロイに最適化されたコンピューティングリソースへの容易なアクセスを可能にする。
NVIDIA DGX Cloudプラットフォームは生成AI向けに構築されており、プロトタイプから本番利用まで、AI開発のあらゆる段階をサポートするスケーラブルなGPUリソースを提供する。
このサービスを利用するには、Enterprise Hub組織へのアクセス権限と、細粒度の認証トークンが必要になる。サポート対象の生成AIモデルのNVIDIA NIMエンドポイントは、Hugging Face Hubのモデルページに掲載されている。
現在、サービスのサポート対象はchat.completion.create
とmodels.list
APIのみだが、Hugging Faceは多くのモデルを追加しながら、その拡張に取り組んでいる。
DGX CloudでのHugging Face 推論サービスの利用料金は、NVIDIA H100Tensor Core GPUを使う場合のリクエストあたりの計算時間に基づいて課金される。
Hugging FaceはNVIDIAと協力して、AI推論のパフォーマンスやアクセシビリティ向上に向けて、 NVIDIA TensorRT-LLMライブラリとHugging Faceのテキスト生成推論 (TGI)フレームワークの統合を進めている。
新たな推論サービスに加え、Hugging FaceではAIトレーニングサービス Train on DGX Cloudも提供する。
Hugging FaceのCEOClem Delangue氏は、自身のXアカウントに投稿している。
Hugging FaceがAIコンピューティングのゲートウェイになろうとしていることに、とてもワクワクしています!
Kaggle Master のRohan Paul氏は、Xで投稿をシェアしこう述べた。
なので、私たちはNVIDIA DGX Cloudのアクセラレーテッド・コンピューティング・プラットフォームでオープンモデルを推論サービスに利用できます。 コードはOpenAI APIと完全な互換性があり、OpenAIのSDKを推論に利用することができます。
SIGGRAPHでNVIDIAは、AIの次の進化に向けて高精度な仮想世界を構築する開発者の能力を加速させるOpenUSDフレームワーク用の生成AIモデルとNIMマイクロサービスも紹介している。