BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Meta社がテールユーティライゼーションの向上によりAI推論を最適化

Meta社がテールユーティライゼーションの向上によりAI推論を最適化

原文リンク(2024-08-02)

Meta社(旧Facebook社)は、テールユーティライゼーションの最適化に注力することで、機械学習モデル提供インフラの効率性と信頼性が大幅に改善されたことを報告した。

同社のエンジニアリングブログの記事によると、同社の取り組みの結果、リソースを追加することなく作業量が35%増加し、タイムアウトエラー率が3分の2に減少し、99パーセンタイルでのテールレイテンシーが50%減少したという。テールユーティライゼーションとは、使用率でランク付けしたときの上位5%のサーバーの使用率のことである。特に、高度な機械学習モデルに依存してリアルタイムで広告を配信するMeta社の広告プラットフォームのような大規模な運用では、システムパフォーマンスの重要な要素である。

この記事では、テールユーティライゼーションの課題が、トラフィックの増加とサーバーの利用率の間の非線形の関係から生じていることを説明している。トラフィックが増加すると、テールユーティライゼーションに寄与するサーバーが過負荷になり、障害が発生し、サービスレベルアグリーメント(SLA)に影響を与える可能性がある。このため、制約のあるサーバーのヘッドルームを維持するために、システム全体のキャパシティを全体的に割り当てることがよくある。

テールユーティライゼーションの最適化は新たなトレンドであり、Meta社はこの分野での取り組みをいち早く発表している。利用率を改善できる分野をまとめたMiddlewareの記事の中で、Sam Suthar氏はこの分野で起きている作業に背景を付け加えている。

「効果的なサーバー利用とは、インストールされているハードウェアとシステムの健全性と能力を維持し、必要以上にリソースを消費することなく、より良いパフォーマンスを引き出すことです。」 - Sam Suthar

Suthar氏は、リソース、パフォーマンス、キャパシティの効果的なモニタリングとアラートが、この分野を理解する上で非常に重要であることを示唆している。

これらの問題に対処するためのMeta社のアプローチには、ロードバランシングメカニズムのチューニングと、モデル展開におけるシステムレベルの変更の実施という2つの主要な戦略があった。

ロードバランシングについては、Meta社は「power of two choices」アルゴリズムを活用した。「power of two choices」とは、各リクエストに対してランダムに選ばれた2つのサーバーのうち、もっとも負荷の少ないサーバーを選択するランダム化ロードバランシング技術である。Meta社のServiceRouterインフラを通して実装されたこのアプローチは、負荷の高いホストを回避し、テールユーティライゼーションを向上させるのに役立った。

このブログの投稿では、Meta社が負荷分散のためにモデルのレプリカをホスト間で移動させる配置の負荷分散にも注力したことが説明されている。これは、Meta社のシャードマネージャー(シャード化されたアプリケーションの開発と運用を容易にするシステム)の設定を微調整することで実現した。

システムレベルの最適化もいくつか行われた。重要な洞察のひとつは、レプリカの配置時にメモリ帯域幅をリソースとして考慮することだった。研究チームは、新しいレプリカがトラフィックを提供し始めた際に観察されたCPUスパイクが、純粋なCPU利用ではなく、メモリレイテンシーの増加によるものであることを発見した。もうひとつの重要な変更は、モデルごとの負荷カウンターの実装である。このアプローチにより、ServiceRouter、Shard Manager、ReplicaEstimatorを含む異なるシステムコンポーネントの期待値が調整され、より正確なロードバランシングとリソース割り当てにつながった。

Tail utilisation optimisation at Meta

Meta社はまた、スナップショット移行(モデルを新しいバージョンに更新するプロセス)に関する課題にも対処した。スナップショット移行予算機能を導入することで、チームはトラフィックのピーク時の混乱を最小限に抑えた。

クロスサービスの負荷分散は、もうひとつの重点分野だった。Meta社は、異なるハードウェアタイプとキャパシティプールにまたがるトラフィックルーティングの割合を調整するフィードバックコントローラーを実装し、サービス層間のバランスを改善した。

最後に、チームはリソースの使用量を2時間先まで予測するレプリカ予測システムを開発した。このプロアクティブなアプローチにより、必要なリソースが事前に確保されるため、ピーク時の障害率が低減された。

これらの最適化により、Meta社の広告システムの重要なコンポーネントである広告モデル推論サービスが大幅に改善された。このサービスでは、クライアントからの広告掲載リクエストを処理しており、実験のセットアップ、ページの種類、広告の属性などの要因に応じて、通常、リクエストごとに複数のモデル推論が行われる。

テールユーティライゼーションの改善により、Meta社は容量を追加することなく、負荷の35%増をサポートでき、同時にシステムの信頼性を大幅に向上させ、待ち時間を短縮できた。広告やその他のアプリケーションで使用される機械学習モデルの複雑さと計算量が増加していることを考えると、これらの改善は重要である。

この記事は、これらの学習結果を新しいシステムアーキテクチャとプラットフォームに適用するMeta社の計画について論じて締めくくられている。これには、機械学習モデル導入のライフサイクル全体を管理するための次世代統合プラットフォーム「IPnext」が含まれる。機械学習が様々なアプリケーションでますます重要な役割を果たすようになる中、効率的に大規模なモデルを提供する能力は、テクノロジー企業にとっても研究者にとっても重要な分野であり続けるだろう。

作者について

この記事に星をつける

おすすめ度
スタイル

BT