MetaがマルチモーダルAIアルゴリズムのdata2vecをオープンソース化

原文(投稿日：2022/02/22)へのリンク

Meta AIは最近、data2vecをオープンソース化した。画像、テキスト、音声音声データに関する自己監視型ディープラーニングのための統合フレームワークだ。一般的なベンチマークで評価すると、data2vecを使ってトレーニングされたモデルは、モダリティ固有の目的でトレーニングされた最先端のモデルと同等かそれ以上のパフォーマンスを達成している。

アルゴリズムと実験は、arXivで公開された論文に記載されている。Data2vecは、自己教師あり学習を統合したものである。そこでは、入力データの表現、つまりニューラルネットワークの隠れ層の値を予測することを、モデルに学習させる。入力データから離れたこの抽象化により、同じトレーニングアルゴリズムを多くの異なるデータタイプに使用できる。data2vecの有効性を実証するために、Metaの研究者は、コンピュータービジョン（CV）、自然言語処理（NLP）、音声認識（SR）のモデルを個別にトレーニングした。彼らのモデルは、CVおよびSRタスクでは以前の自己監視モデルを上回り、NLPでは「高い競争力」があった。メタチームは次のように述べている。

data2vecは、AIの進歩を加速するために役立つだけでなく、周囲の世界のさまざまな側面についてシームレスに学習するマシンの構築に近づきます。これにより、より適応性の高いAIを開発できるようになり、今日のシステムで実行できる以上のタスクを実行できるようになると確信しています。

教師あり機械学習では、パフォーマンスを向上させるために、手作業でラベル付けされた大きなデータセットでのトレーニングが必要になることが多い。そのため、多くの研究者は、モデルがラベルなしの大きなデータセットでの自己教師あり学習によって事前トレーニングされ、特定のタスクに合わせて微調整される転移学習に目を向けている。BERTなどの多くの事前トレーニング済みNLPモデルは、自己教師あり学習のためにマスクされた言語モデルを使う。このモデルでは、入力シーケンスからマスクされた単語やトークンを予測するようにトレーニングされる。同じような目的が他のドメインにも適用されている。ただし、多くの場合、これらの異なるデータ型は異なるトレーニングオブジェクトで事前にトレーニングされている。たとえば、CVモデルは多くの場合、Contrastive Lossを使って、潜在空間の近隣に類似した画像をマッピングする。

data2vecの場合、Metaチームはマスクされた学習目標を使うことを選択した。しかし、学習目標は、マスクされたトークンや入力単位を予測する代わりに、入力全体に基づいて「コンテキスト化された潜在表現」を予測することである。このモデルはTransformerネットワークをベースにしており、「教師」モードまたは「学生」モードのいずれかでのトレーニング中に使用される。まず、教師は入力全体を表現にエンコードする。次に、生徒には、いくつかのデータをマスクした状態で入力が与えられる。生徒は、教師により生成される完全な表現を予測する必要がある。つまり、教師の複数の隠れ層の状態を予測する必要がある。

data2vecのパフォーマンスを評価するために、Metaの研究者はアルゴリズムを使っていくつかのモデルを事前トレーニングした。これを行うために、チームは最初に「モダリティ固有の機能エンコーダーとマスキング戦略」を実装して、汎用のTransformerにフィードした。彼らは3セットのモデルを事前にトレーニングし、ImageNet（CV）、Librispeech（SR）、GLUE（NLP）のベンチマークで評価した。ImageNetでは、data2vecモデルはImageNet-1Kで同様のサイズのViT HuBERTを含む「最高の先行作業」を上回った。GLUEでは、data2vecモデルはベースラインのRoBERTaモデルに対して「競争力のある」パフォーマンスであった。

Twitterで、主任研究員のAlexeiBaevski氏がこの作業に関するいくつかの質問に答えた。彼は、16個のGPUを使ってNLPモデルのトレーニングに「約3.5日」かかったと述べた。

SRとNLP向けのdata2vecコードと事前トレーニング済みモデルは、GitHubから入手できる。CVモデルは現在入手できないが「近日公開」と記載されている。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

MetaがマルチモーダルAIアルゴリズムのdata2vecをオープンソース化

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。