Googleが深度認識のトレーニングにマネキンチャレンジのビデオを使用

原文(投稿日：2019/06/04)へのリンク

Google AI Researchは、2次元画像から奥行きを知覚する研究を解説した論文を発表した。マネキンチャレンジのYouTubeビデオから作成したトレーニング用データセットを使って、研究者たちは、移動するカメラで撮影した動く人々のビデオから深度情報を再構築することのできる、ニューラルネットワークをトレーニングした。

コンピュータビジョンに共通する問題のひとつに、2次元画像から3次元情報を再構成することがある。このプロセスの出力は、元の2D画像のRGBピクセル値に、カメラからそのピクセルで表される光を発生したスポットまでの距離を表す値の配列をオーバーレイしたもので、"深度マップ(depth map)"と呼ばれている。深度マップには、拡張現実(AR)やロボットナビゲーションなど、現実的な適応対象が数多くある。

KinectのようなRGB-Dセンサと呼ばれるクラスのセンサは、2DのRGBイメージと合わせて、深度データを直接出力することが可能である。RGB画像データのみから深度マップを構築する場合には、複数のカメラ(複数の目に基づく自然界の視覚システムに近い)か、あるいは単一の移動カメラを使用することによって三角測量を行うのが一般的だが、単一の移動カメラによる後者のアプローチは、連続するフレーム間の視差を使用することで機能するため、シーン内のオブジェクトも移動している場合は有効ではない。多くのアプリケーション、特に携帯電話によるARでは、単一のカメラで正確な深度を再構成する必要がある。特に、Googleの研究者たちが関心の対象としたのは、人を含む多くの動作するオブジェクトからの深度を再構成する方法だ。このようなシーンでは、人体が動くだけでなく、体のさまざまな部分が互いに関連して動作し、カメライメージ内の人体の形や、各部分の相対距離を実質的に変化させるため、問題はさらに複雑になる。マシンラーニングでこの問題に取り組むためには、動くカメラで撮影された動く人々を含む、大規模なビデオデータセットが必要となる。ワシントン大学のチームは、サッカーゲームの2Dビデオを3D変換するため、ビデオゲームで作成したデータセットを使用したが、このシステムはサッカーゲームのみを動作対象とするように制限されていた。

ここでマネキンチャレンジ(MC)について説明しよう。これは、ビデオ撮影者が動き回ってビデオを撮っている間、人々が固定されたポーズをとってマネキンになりすますという、インターネットの流行だ。カメラが移動して、他のシーンは静止しているので、視差法によって、さまざまなポーズをする人物の正確な深度マップを簡単に再構築することができる。研究者たちは、2,000程度のYouTubeのMCビデオを処理して、"トータルで17万の有効な画像深度ペアを持った、4,690シーケンス"のデータセットを作成した。

データセットが作成されたので、それをさらに処理して、ディープニューラルネットワーク(DNN)への入力を作成した。それぞれのフレームと直前のフレームとの視差を比較することで、初期深度マップを取得することができた。入力フレームも、人を検出するビジョンシステムを使用してセグメント化され、ここから、人が見つかったエリアの初期深度マップを取り除くためのマスクが作成された。ラーニングシステムのターゲットは、MCビデオから計算された、入力画像の既知の深度マップである。DNNは、入力画像、初期深度マップ、人のマスクを取得して、人の深度値が入力された、"洗練された"深度マップの出力を学習した。

Googleはこの技術が、"合成デフォーカス(synthetic defocus)などの3D対応のビデオ効果"を含む、いくつかのアプリケーションに適用できる、と提案している。Redditのコメンタは、深度を音に変換して、"聴覚障害者をナビゲートする"モバイルフォンアプリを提案した。

AR研究者のRoss Brown氏はTwitterで、次のように述べている。

"Proteusプロジェクトで興味深いのは、深度マップの生成にZedCamsを使用していることです。これによって、必要なのはディジタルSLR(一眼レフ)のみになります。これが本当に実現するのです。さあ、TensorFlowを勉強しましょうか ..."

興味深いことに、DNNコードがGoogleのTensorFlowフレームワークではなく、PyTorchをベースとしている。推論コードと事前学習済みのモデルは、GitHubから入手できる。プロジェクトのページによれば、データセットは"近日中に公開"される。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027