Facebookが将来の行動を予測できる新しいAIモデルを開発

原文(投稿日：2021/11/18)へのリンク

Facebookは、Anticipative Video Transformer（AVT）と呼ばれる最新の機械学習プロセスを発表した。視覚的な解釈を用いて将来のアクションを予測できる。AVTは、ビデオでのアクション予測のためのエンドツーエンドのアテンションベースのモデルとして機能する。

新しいモデルは、Transformerアーキテクチャ、特に自然言語処理のための最近技術をベースとしている。また、自動運転車から拡張現実に至るまでのアプリケーション向けの画像モデリングをベースとしている。

AVTは、特にARとメタバースの見込み効果を示すために、アクティビティを分析している。Facebookは、プログラムが相互に通信するためのAPIを介して、メタバースアプリが他のプラットフォームやハードウェア間で機能できるようにすることを計画している。

将来の活動を予測することはAIにとって難しい問題だ。将来の活動のマルチモーダル分布を予測することと、以前のアクションのコースをモデル化することの両方を必要とするためである。

AVTはアテンションベースであるため、全シーケンスを並行して処理できる。一方でリカレントニューラルネットワークベースのアプローチでは、シーケンスを順番に処理する必要があるため、過去が考慮されないことがよくある。AVTは損失関数も備えており、これはモデルが、ビデオのシーケンシャルな性質をキャプチャするように促すものだ。そうでないと、非ローカルネットワークなどのアテンションベースのアーキテクチャによってロストが発生してしまう。

AVTは2つの部分で構成される。ビデオのフレームで動作するアテンションベースのバックボーン（AVT-b）と、バックボーンによって抽出された特徴で動作するアテンションベースのヘッドアーキテクチャ（AVT-h）である。

AVT-bバックボーンは、ビジョントランスフォーマー（VIT）アーキテクチャをベースとしている。フレームを重複のないパッチに分割し、フィードフォワードネットワークに埋め込み、特別な分類トークンを追加し、マルチヘッドセルフアテンションの複数のレイヤーを適用する。ヘッドアーキテクチャはフレームごとの機能を採用しており、因果関係アテンションと共に別のトランスフォーマーアーキテクチャを適用する。これは、現在および前のフレームからのみ機能を評価することを意味する。これにより、モデルは、どのような個々のフレームの表現を生成するときでも、過去の特徴のみに依存させることができる。

AVTは、ARアクションコーチとして、またはミスを犯す前に人々に警告する人工知能アシスタントとして使うことができる。さらに、AVTは、自己教師あり学習、アクションスキーマと境界の発見、さらにはアクションの時系列のモデリングを必要とするタスクでの汎用的なアクション認識など、予想を超えるタスクに役立つ可能性がある。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Claude Codeオートモードの内側：人間承認ゲートを備えたAnthropicの自律コーディングシステム

Cloudflare社、AIエージェント向けにトークン使用量を最適化するCode Mode対応MCPサーバーを発表

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

AnthropicがRoutinesを導入、Claude Code自動化のため

NVIDIAがIsingオープンモデルを発表、量子コンピューティング向け

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027