BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AIワークロードの最適化に向けて:Google Cloud活用のヒントとコツ

AIワークロードの最適化に向けて:Google Cloud活用のヒントとコツ

原文リンク(2025-04-09)

Google Cloud社は、企業の社内クラウドインフラストラクチャにおけるでAIワークロードのコスト削減や効率性向上に特化した一連の新しいツール機能を発表した。今回の発表は、企業側からのAIイニシアチブコストの最適化とパフォーマンス・スケーラビリティの維持の両立を求める声の高まりを受けての対応である。

今回実装となる新機能は、主にコンピューティングリソースの最適化、専用ハードウェアの高速化、インテリジェントなワークロードスケジューリングの3つの分野に焦点を当てている。今回の新機能では、企業がAIの大規模デプロイ時に直面することが多い課題の1つである、イノベーションとコスト管理状況の改善を狙ったものである。

発表の中で、Google Cloud社のAI製品担当VPは次のように述べている。

パフォーマンスや性能の改悪を防ぎつつ、AIコストの最適化を模索する企業が年々増えています。今回の新機能で、より効率の高い機械学習トレーニングや推論の提供が可能になり、こうしたニーズにダイレクトに応える形となりました。

同社のアプローチは、戦略的なプラットフォーム選択から始まる。今日の企業には、フルマネージドサービスサービスから高度なカスタムソリューションに至るいくつもの選択肢が用意されている。 Vertex AIでインフラストラクチャ管理の懸念を払拭すべくAI開発用の統合型フルマネージドプラットフォームが提供されているほか、Cloud RunのGPUサポートではスケーラブルな推論サービスオプションが利用可能だ。また、Cloud BatchとSpot Instancesを組み合わせることで長期タスクのコストを大幅に削減できる。 現行Kubernetesの専門技術がある企業は、Google Kubernetes Engine(GKE)の恩恵を受けられる可能性がある。一方、フルマネージドサービスを必要とする企業はGoogle Compute Engineの利用が可能だ。

重要な推奨事項では、コンテナパフォーマンスの最適化が焦点となる。Google社ではGKE環境やCloud Run環境で推論コンテナを使用する場合、コンテナの軽量化維持を推奨している。コンテナの減量化には、Cloud Storage with FUSEFilestore、または共有型読み取り専用永続ディスクなどの外部ストレージにモデルを保存する方法が有効だ。このアプローチで、コンテナ起動時間の劇的短縮やスケーリング効率向上が可能になる。コンテナ起動時間やスケーリング効率は、パフォーマンス管理やコスト管理の両方における重要な要因となっている。

最適化におけるもう一つの重要な要因としては、ストレージの選択が挙げられる。Google Cloud社では、小規模なAIワークロードにはFilestoreの使用を、あらゆる規模のオブジェクトストレージにはCloud Storageの使用を、ファイルシステムとしてストレージバケットをマウントするにはCloud Storage FUSEの使用をそれぞれ推奨している。 また、レイテンシーを低く抑える必要のあるワークロードは、Parallelstoreでアクセスタイムをミリ秒単位に抑えられるほか、Hyperdisk MLで、タスク処理に特化した高性能ストレージが利用可能だ。

Google Cloud社は、リソース取得の遅延による追加コスト防止におけるDynamic Workload SchedulerとFuture Reservationsの重要性を強調している。これらは、クラウドリソースセキュリティを事前に強化し、クラウドソースを確実に利用できるようにすると同時に、主要ハードウェアコンポーネントの調達プロセスを最適化するツールである。

最後の戦略としては、カスタムディスクイメージを使用したデプロイの効率化に向けた取り組みがある。オペレーティングシステム、GPUドライバ、AIフレームワークの構築を一から繰り返す必要はない。従来数時間を費やしたカスタムディスクイメージの作成、維持によるフル構成された新規システムデプロイも、今回の変更でわずか数秒で実行可能になっている。

多業界に渡って、AIにかかるコスト管理の重要性がますます高まっている。こうした、効率やコスト効率の高いAIインフラストラクチャに対する需要の高まりを受けて、AWSとMicrosoft Azureの両社も、企業向けAIワークロードのサポート強化を実施している。AWS社はSageMaker platformにコストパフォーマンスを意識したマネージドスポットトレーニングやモデルモニタリング機能などのツールを新規導入しており、パフォーマンスと費用の両面での最適化が見込まれる。 同様にMicrosoft Azure社では、Azure Machine LearningによるAI提供が改善されており、インテリジェントなオートスケーリング、キャパシティ予約料金の設定、ワークロードオーケストレーション改善に向けたAzure Kubernetes Service (AKS)とのシームレス統合などの変更が実装されている。

Google Cloud社と同様、AWS社やMicrosoft Azure社もハイブリッドパワーを活かした柔軟性、ストレージの最適化、GPUの高速化を強調しており、企業側でスケーリングやコスト管理がしやすくなっている。 こうした各社の一連の対応からクラウドプロバイダー間での競争力の高まっており、AIコスト管理という差し迫った課題への対処と大規模なイノベーション推進の両立が実現に向かっていることが伺えるだろう。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT