BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Amazon SageMakerサーバーレス推論が一般向け提供へ

Amazon SageMakerサーバーレス推論が一般向け提供へ

原文(投稿日:2022/05/08)へのリンク

Amazonは最近、SageMakerサーバレス推論が一般向けに利用可能となったことを発表した。この新しいオプションは、断続的、あるいは、まれなトラフィックパターンを伴う処理向けに設計されており、モデルが受信する推論要求の量に応じて計算能力をプロビジョニング・スケーリングする。

AWSの他のサーバレスサービスと同様に、SageMakerサーバレス推論エンドポイントは、インスタンスタイプを選択したりスケーリングを管理したりすることなく、コンピューティングリソースを自動的に開始し、トラフィックに応じてスケールインおよびスケールアウトする。数秒以内に数十から数千の推論に瞬時にスケーリングできる。サーバレス推論エンドポイントのメモリ要件を指定することもできる。AWSの主任開発者Antje Barth氏は、新たなオプションの利点について次のように説明している。

MLの実践者との多くの会話の中で、私はフルマネージドのML推論オプションの要求を取り上げました。これにより、インフラストラクチャのすべてを管理しながら、推論コードの開発に集中できるようになります。SageMakerサーバレス推論により、デプロイが容易になりました。

出典: https://aws.amazon.com/it/blogs/aws/amazon-sagemaker-serverless-inference-machine-learning-inference-without-worrying-about-servers/

サーバレスオプションのプレビューはre:Invent 2021で発表された。それ以降、当クラウドプロバイダはAmazon SageMaker Python SDKModel Registryに対するサポートを追加した。これは、サーバレス推論エンドポイントをMLOpsワークフローと統合するための機能である。

サーバレスオプションの必要性とSageMakerに代わるものは、過去にRedditスレッドで議論されていた。NeosperienceのCTOのLuca Bianchi氏は、AWS Lambdaでコンテナイメージのサポートを活用することは、サーバレスの機械学習処理を実行するもう1つのアプローチだと説明している。

Hugging FaceのテクニカルリードのPhilipp Schmid氏は、次のように書いている

SageMakerサーバレス推論は、機械学習の旅が加速されるようあなたを100%支援します。そして、それによって高速で費用対効果の高いproofs-of-concept(PoC)を組み立てられるようになります。PoCでは、コールドスタートやスケーラビリティがミッションクリティカルではありません。そして、これをGPUあるいは、より大規模な環境にすばやく移行できるのです。

別の記事で、Schmid氏とAWS担当の共著者は、SageMakerサーバレス推論を使ってHugging Faceトランスフォーマーモデルをホストする方法を説明している。Barth氏は、コールドスタートの取り扱い方法に関する注意を促している。

エンドポイントがしばらくトラフィックを受信していない場合は、計算リソースが縮小されます。エンドポイントが突然新しいリクエストを受信した場合、エンドポイントがリクエストを処理するためにコンピューティングリソースをスケールアップするのに時間がかかることに気付くかもしれません。このコールドスタート時間は、モデルサイズとコンテナの起動時間に大きく依存します。コールドスタート時間を最適化するために、たとえば、知識の蒸留、量子化、モデルプルーニングなどの手法を適用して、モデルのサイズを最小化することができます。

最新のサーバレス機能の追加に加えて、Amazon SageMakerには3つのモデル推論オプションがあり、さまざまなユースケースをサポートする。その3つは、ミリ秒単位の低遅延が要求される処理用に設計されたSageMakerリアルタイム推論、大きなペイロードサイズや長時間の処理を要する推論用に推奨されるSageMaker非同期推論、データのバッチで予測を実行するためのSageMakerバッチ変換である。

顧客は、SageMakerコンソール、AWS SDK、SageMaker Python SDK、AWS CLI、AWS CloudFormationを使って、サーバレス推論エンドポイントを作成・更新できる。料金は、推論コードを実行するための計算時間と処理されたデータ量に基づいてミリ秒単位で請求される。最初の2か月間については「推論時間150,000秒」の月ごとの無料利用枠がある。

作者について

この記事に星をつける

おすすめ度
スタイル

BT