GoogleがAndroidとiOS用のリアルタイムハンドトラッキングをオープンソース化

原文(投稿日：2019/08/22)へのリンク

Googleは、モバイルデバイスがリアルタイムの手の検出と追跡できるようにすることを目的とした、MediaPipeフレームワークの新しいコンポーネントをオープンソース化した。

Googleアルゴリズムは機械学習（ML）技術を使用して、1つのフレームから21のキーポイントを検出し、複数の手で使用できる。Googleによると、モバイルデバイスでリアルタイムのパフォーマンスを提供する機能は、デスクトップのパフォーマンスを必要とする競合するアプローチとは別物である。これは、ビデオ、オーディオ、センサーデータを含む、適用される機械学習パイプラインを構築するためのグラフベースのフレームワークであるMediaPipe内に統合されている。

Googleのアプローチは、パイプラインで動作する3つのMLモデルに基づいている。BlazePalmと呼ばれる最初のモデルは、方向付けられた手の境界ボックスを検出するために使用される。検出された境界ボックスは、3Dの手のキーポイントを検出するために2番目のモデルに送られ、3番目のモデルを使用して、個々のジェスチャのセットに分類される。そのようなパイプラインの結果を次の図に示す。

(Googleブログの画像)

Googleの研究者によると、彼らのアプローチの重要な部分の1つはBlazePalmコンポーネントによって実行されることである。

手のランドマークモデルに正確にトリミングされた手のひら画像を提供することで、追加のデータ（回転、変換、スケールなど）の必要性が大幅に削減され、代わりにネットワークがその能力のほとんどを座標予測の精度に充てることができます。

このアーキテクチャは、フェイスメッシュパイプラインで使用されているものと類似しており、MediaPipeでも使用できる。顔検出と比較して、高コントラストゾーンがないために手の検出が難しくなるため、BlazePalmは、手の位置を改善するために、腕、体、またはその他の特徴などの追加情報に頼る。Googleによると、彼らのアプローチは手のひらの検出で95.7％の平均精度を提供します。第2段階のモデルに対して、Googleは21のキーポイントを含む約3万の現実世界の画像に注釈を付け、不特定多数の合成手画像とともに使用している。

Googleがこの技術に対して提案しているユースケースの中には、手話の理解と手のジェスチャーによるデバイス制御がある。

将来、Googleの研究者は認識できるジェスチャの数を増やし、時間内に明らかにできる動的なジェスチャをサポートすることに取り組んでいきます。

MediaPipeは、モバイルデバイス、ワークステーション、サーバ用のクロスプラットフォームフレームワークであり、モバイルGPUアクセラレーションをサポートしている。 ML対応コンポーネントを使用して処理パイプラインを構築できる。現在、Google MediaPipeは、ハンドトラッキング、顔検出、髪のセグメンテーション、オブジェクト検出のサポートを提供している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックはモバイルです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方