MediaPipeがモバイルデバイス向けにホリスティックトラッキングを提供

原文(投稿日：2020/12/13)へのリンク

ホリスティックトラッキングはMediaPipeの新機能であり、モバイルデバイスで体と手のポーズと顔の位置を同時に検出できる。この3つの機能は、以前は個別に利用できた。しかし、現在は単一の高度に最適化されたソリューションに統合されている。

MediaPipe Holisticは、最適化されたポーズ、顔、手のコンポーネントを備えた新しいパイプラインで構成される。それぞれのコンポーネントがリアルタイムで実行され、推論バックエンド間のメモリ転送が最小限に抑えられます。そして、品質/速度のトレードオフに応じて、3つのコンポーネントの互換性のサポートが追加されています。

パイプラインの機能の1つは、入力を各モデル要件に適合させることである。たとえば、ポーズの推定には256x256フレームが必要であるが、これはハンドトラッキングモデルで使用する場合には十分ではない。

Googleのエンジニアによると、人間のポーズ、手の追跡、顔の位置の検出を組み合わせるのは非常に複雑な問題であり、複数の依存するニューラルネットワークを使用する必要がある。

MediaPipe Holisticでは、フレームごとに最大8つのモデル（ポーズ検出器1つ、ポーズランドマークモデル1つ、再トリミングモデル3つ、手と顔のキーポイントモデル3つ）の間での調整が必要です。私たちは、このソリューションを構築する際に、機械学習モデルだけでなく、前処理および後処理アルゴリズムも最適化しました。

パイプラインにおける最初のモデルはポーズ検出器である。この推論の結果は、手と顔の位置の両方を識別し、それに応じて元の高解像度フレームをトリミングするために使用される。結果として得られる画像は、最終的に手と顔のモデルに渡される。

最大のパフォーマンスを達成するために、パイプラインはオブジェクトがフレーム間で大幅に移動しないことを前提としている。そのため、前のフレーム分析の結果、つまり対象の身体の領域を使用して、新しいフレームで推論を開始できる。同じように、ポーズ検出は、各フレームの準備ステップとして使用され、速い動きに反応するときに推論を高速化する。

このアプローチのおかげで、Googleのエンジニアは、ホリスティックトラッキングが、ほぼリアルタイムのパフォーマンスを提供しながら、540を超えるキーポイントを検出できると述べている。

ホリスティックトラッキングAPIを使用すると、開発者はいくつかの入力パラメーターを定義できる。例えば、入力画像をビデオストリームの一部と見なすかどうか、全身か上半身かのどちらを推論する必要があるか、最小信頼度などである。さらに、推論によって提供される出力ランドマークを正確に定義できる。

Googleによると、ポーズ、手の追跡、顔の表情を統合することで、リモートジェスチャインターフェース、全身拡張現実、手話認識などの新しいアプリケーションを実現できるようになる。この例として、Googleのエンジニアは、ブラウザで実行され、ユーザがジェスチャーを使用して画面上のオブジェクトを操作したり、仮想キーボードで入力したりできるようにするリモートコントロールインターフェースを開発した。

MediaPipe Holisticは、モバイル（Android、iOS）およびデスクトップ用のデバイスで利用できる。Web開発者による採用を加速するため、PythonとJavaScriptで、すぐに使用できるソリューションである。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはモバイルです。

関連記事:

関連記事

関連スポンサーコンテンツ

CloudflareのアプリケーションセキュリティレポートがDDoS攻撃とCVEエクスプロイトの急増を浮き彫りにする

InfoQ Dev Summit Munich 2024 Summer セール情報：生成AI、サプライチェーンセキュリティ、スケーラブルアーキテクチャとは

Elasticがオープンソースに回帰：コミュニティはついてくるか？

Canva、SNS+SQSよりAmazon KDSを選択し、1日250億件のイベントで85%の節約を実現

Amazon Aurora Serverlessは10K以上のインスタンスのフリートに対して、どのようにリソースとスケーリングを管理するのか？

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

チーム・イネーブラーとしてのLLMとエージェント

ソフトウェア開発における高パフォーマンス作業環境の醸成

ソフトウェア・チームのストリームアラインド、プラットフォーム兼任化による生産性の向上

Mistral AI、3つのオープンウエイト言語モデルをリリース

Amazon MemoryDBがAWSで最速のベクトル検索を提供する

YouTubeでの音楽レコメンドにTransformerアーキテクチャを活用

Uber社、Apache Kafkaの階層型ストレージ機能を推進、効率性をめぐる議論に拍車

Forrester、HashiCorpの「2024年クラウド戦略の現状調査」でクラウド成熟度の修正を提言

Meta社がテールユーティライゼーションの向上によりAI推論を最適化

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方