Facebookが将来の行動を予測できる新しいAIモデルを開発

原文(投稿日：2021/11/18)へのリンク

Facebookは、Anticipative Video Transformer（AVT）と呼ばれる最新の機械学習プロセスを発表した。視覚的な解釈を用いて将来のアクションを予測できる。AVTは、ビデオでのアクション予測のためのエンドツーエンドのアテンションベースのモデルとして機能する。

新しいモデルは、Transformerアーキテクチャ、特に自然言語処理のための最近技術をベースとしている。また、自動運転車から拡張現実に至るまでのアプリケーション向けの画像モデリングをベースとしている。

AVTは、特にARとメタバースの見込み効果を示すために、アクティビティを分析している。Facebookは、プログラムが相互に通信するためのAPIを介して、メタバースアプリが他のプラットフォームやハードウェア間で機能できるようにすることを計画している。

将来の活動を予測することはAIにとって難しい問題だ。将来の活動のマルチモーダル分布を予測することと、以前のアクションのコースをモデル化することの両方を必要とするためである。

AVTはアテンションベースであるため、全シーケンスを並行して処理できる。一方でリカレントニューラルネットワークベースのアプローチでは、シーケンスを順番に処理する必要があるため、過去が考慮されないことがよくある。AVTは損失関数も備えており、これはモデルが、ビデオのシーケンシャルな性質をキャプチャするように促すものだ。そうでないと、非ローカルネットワークなどのアテンションベースのアーキテクチャによってロストが発生してしまう。

AVTは2つの部分で構成される。ビデオのフレームで動作するアテンションベースのバックボーン（AVT-b）と、バックボーンによって抽出された特徴で動作するアテンションベースのヘッドアーキテクチャ（AVT-h）である。

AVT-bバックボーンは、ビジョントランスフォーマー（VIT）アーキテクチャをベースとしている。フレームを重複のないパッチに分割し、フィードフォワードネットワークに埋め込み、特別な分類トークンを追加し、マルチヘッドセルフアテンションの複数のレイヤーを適用する。ヘッドアーキテクチャはフレームごとの機能を採用しており、因果関係アテンションと共に別のトランスフォーマーアーキテクチャを適用する。これは、現在および前のフレームからのみ機能を評価することを意味する。これにより、モデルは、どのような個々のフレームの表現を生成するときでも、過去の特徴のみに依存させることができる。

AVTは、ARアクションコーチとして、またはミスを犯す前に人々に警告する人工知能アシスタントとして使うことができる。さらに、AVTは、自己教師あり学習、アクションスキーマと境界の発見、さらにはアクションの時系列のモデリングを必要とするタスクでの汎用的なアクション認識など、予想を超えるタスクに役立つ可能性がある。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方