AIは見ることによっても聞く

原文(投稿日：2022/01/19)へのリンク

Meta AIは、自己監視型音声認識モデルをリリースした。このモデルはビデオも使用し、ある程度の量があるデータに対して現在の最先端モデルよりも75％優れた精度を実現する。

この新しいモデルAudio-Visual Hidden BERT (AV-HuBERT)は、視聴覚機能を使用して、音声のみに基づいてモデルを改善する。使用される視覚機能は、人間の場合と同じように、読唇術に基づいている。読唇術は、誰かが話しているときにバックグラウンドノイズをフィルタリングするのに役立つ。これは、音声のみを使用する場合には非常に難しい作業である。

入力データを生成するための最初の前処理は、ビデオからオーディオとビデオの特徴を抽出し、k-meansを使ってクラスタを作成することである。視聴覚フレームはAV-HuBERTモデルへの入力であり、クラスタIDは出力となる。

図1：ビデオおよびオーディオ機能のクラスタリング

次のステップは、自己監視言語モデルであるBERTに似ている。モードがコンテキストを予測して学習できるように、オーディオストリームとビジュアルストリームのスパンでマスクを使用する。トランスフォーマーを使ってコンテキスト化された表現でこれらの機能を融合すると、オーディオあるいはビジュアルがマスクされているフレームの損失関数を計算できる。

Meta AIは、GitHubでこのコードを実装するフレームワークをリリースした。

事前にトレーニングされたモデルをロードするには、次のスクリプトが役立つ。

>>> import fairseq
>>> import hubert_pretraining, hubert
>>> ckpt_path = "/path/to/the/checkpoint.pt"
>>> models, cfg, task = fairseq.checkpoint_utils.load_model_ensemble_and_task([ckpt_path])
>>> model = models[0]

図2：AV-HuBERTモデルの表現

このフレームワークは、ディープフェイクを検出し、ARでより現実的なアバターを生成するのに役立つ。このモデルは、画像と音声を同期させることで、顔の動きと一致して話すアバターを生成するのに役立つ。テキストから画像への変換は、AI研究コミュニティでは依然としてホットなトピックである。さらに、このモデルは、ノイズの多い環境で音声をより効率的に認識するのに役立つ。もう1つの優れた潜在的なアプリケーションは、トレーニングに必要なデータが少なくて済むため、少ないリソースで多くの言語のリップシンクができるようになる。

作者について

Bruno Santos

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

AIは見ることによっても聞く

作者について

Bruno Santos

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。