Facebookが20億パラメータの多言語音声認識モデルXLS-Rをオープンソース化

原文(投稿日：2022/01/18)へのリンク

Facebook AI Research（FAIR）はXLS-Rをオープンソース化した。クロスリンガル音声認識（SR）AIモデルだ。XSLRは、128言語の436K時間の音声音声でトレーニングされている。以前の最大モデルよりも1桁多く、いくつかのダウンストリームSRタスクと翻訳タスクで現在の最先端技術を上回っている。

FAIRは、自身のブログでリリースを発表した。XLS-Rは、音声音声の表現を学習するための自己監視型アプローチであるwav2vec 2.0をベースとしている。このモデルは公開されているいくつかの音声データセットでトレーニングされている。音声データには、最近リリースされたコーパスで、欧州議会の音声録音を含むVoxPopuliが含まれている。全体として、モデルは128のヨーロッパ、アジア、アフリカの言語でトレーニングされた。これには、それぞれ100時間未満のオーディオデータを持つ88の低リソース言語が含まれる。XLS-Rはいくつかのベンチマークで新しい最先端のパフォーマンスレベルを達成した。ベンチマークには、VoxLingua107、CommonVoice、VoxPopuli、BABELのいくつかの言語、CoVoST-2での英語への翻訳が含まれる。FAIRチームは次のように述べている。

私たちは、この[研究]により、すべての人間の音声をより適切に理解する機械学習アプリケーションが実現できると信じています。そして、さらなる研究を促進して、世界中、特にサービスの行き届いていない人々の間で音声技術がより利用しやすくなるでしょう。私たちは、より少ない教師から学び、世界中の7,000以上の言語にアプローチを拡大するための新しい方法を開発することにより、アルゴリズムを改善し続けます。

深層学習音声認識モデルのトレーニングには、対応するテキストトランスクリプトと共に音声データを含む大規模なデータセットが必要となる。すぐに利用できるデータがないため、このようなデータセットの取得は、リソースの少ない言語では課題となる。この状況では、研究者は転移学習に目を向ける。転移学習では、公開されている大規模なデータセットで事前にトレーニングされたモデルを微調整する。この分野でのFAIRの以前の取り組みの結果、53言語の5万時間のオーディオデータでトレーニングされた300MパラメータモデルであるXLSR-53が生まれた。

画像出典: https://arxiv.org/abs/2111.09296

XLS-Rはwav2vec 2.0アーキテクチャをベースとしている。畳み込みニューラルネットワーク（CNN）機能エンコーダーを使って、音声を潜在音声表現に変換し、量子化してからTransformerに送る。トレーニング中、入力のスパンはマスクされる。モデルの目的は、マスクされた入力の量子化された表現を識別することである。結果として得られるトレーニング済みモデルは、オーディオ入力のエンコーダである。ダウンストリームタスクの場合、エンコーダーの出力は、音声の分類・認識のために線形レイヤーに送信するか、翻訳のためにデコーダーに送信できる。

FAIRチームは、XLS-Rのパフォーマンスをいくつかのベンチマークタスクのベースラインモデルと比較した。ベンチマークタスクは、自動音声翻訳（AST）、自動音声認識（ASR）、言語識別、話者識別などである。他の言語から英語に翻訳するASTタスクの場合、モデルは以前の作業を平均7.4 BLEU上回った。英語からの翻訳では、XSL-Rはベースラインと同程度のパフォーマンスであった。著者らは、これは以前のモデルの「英語のデータがトレーニングコーパスに対して支配的であるためだと思われる」と推測している。著者によると、最も困難なタスクのBABELで、XSL-Rはベースラインを上回り、「XLS-Rに事前トレーニングデータが加えられていない言語でも」、言語間の転送のメリットを示している。全体として、著者は、XLS-Rが「低程度から中程度のリソースの言語に最適なパフォーマンスを発揮する」ことを発見した。

この取り組みに関するTwitterのディスカッションで、ある読者が共著者のAlexis Conneau氏に、バイアスに関するXSL-Rの安全性を確保するためのアプローチについて尋ねた。Conneau氏は答えている。

ダウンストリームのタスクとあなたが考えているバイアスに依存します。事前トレーニング時に、ラベルのないデータをフィルタリングできます。微調整時には、生成の制御（ASR/AST）に関する大量の作業があり、包括的な要約を行うのは困難です。

XSL-RコードはGitHubから入手できる。事前にトレーニングされたモデルはHuggingFaceモデルリポジトリから入手できる。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

KubriX社が「アウト・オブ・ザ・ボックス」をコンセプトとした内部開発者プラットフォームを発表

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Facebookが20億パラメータの多言語音声認識モデルXLS-Rをオープンソース化

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。