Facebookが多言語音声認識ディープラーニングモデルをオープンソース化

原文(投稿日：2021/01/26)へのリンク

Facebook AI Research（FAIR）はクロスリンガル音声認識（XSLR）、多言語音声認識AIモデルをオープンソース化した。XSLRは53の言語でトレーニングされており、一般的なベンチマークで評価すると、既存のシステムよりも優れている。

モデルアーキテクチャと関連する実験は、arXivで公開された論文に記載されている。XSLRはwav2vecアーキテクチャ上に構築されており、転移学習を使用して「低リソース」言語でのパフォーマンスを向上させている。このシステムは、53の言語を含む3つの公開データセットで事前トレーニングされている。CommonVoiceとBABELのベンチマークで評価すると、モデルは既存のベースラインを上回る。このシステムは、事前トレーニングにない言語を学習することもでき、その言語で特別にトレーニングされた単一言語モデルよりも優れている。第一著者のAlexis Conneau氏は次のように述べている。

私たちの目標は、リソースが多い言語からの教師なしデータを活用して、実際には少ないリソースの言語による数回の学習を可能にすることです。

深層学習モデルのトレーニングには、ラベル付きの例の大規模なデータセットが必要である。音声認識の場合、これは対応するテキストトランスクリプトを含む音声データを意味する。このようなデータセットの取得は、ヨーロッパ以外の言語では困難な場合がある。すぐに利用できるデータがないため、リソースの少ない言語と呼ばれることがよくある。この状況で、研究者は転移学習に目を向けている。つまり、公開されている大規模なデータセットで事前にトレーニングされたモデルを微調整するものである。この戦略は、BERTなどの一般的なSequence-to-Sequence自然言語Transformerモデルを使用して、Facebookなどによってニューラル機械翻訳に適用されている。

FAIRは、2019年に自動音声認識（ASR）用にオリジナルのwav2vecディープラーニングモデルを公開した。そして、2020年にwav2vec 2.0モデルを更新した。このモデルは、畳み込みニューラルネットワーク（CNN）機能エンコーダーを使用して、音声を量子化された潜在的な音声表現に変換される。それは、その後、Transformerに提供される。Transformerは、音声表現のシーケンスをテキストに変換する。事前トレーニングフェーズでは、潜在的な表現のうち一定の割合がマスクされ、ネットワークはマスクされた値を予測することを学習する。これは、BERTで使用されている、マスクされた言語モデルのトレーニングに類似している。

XSLRは、wav2vec 2.0と同じアーキテクチャを使用している。これは、3つのデータセットから抽出されたオーディオデータの多言語バッチを使用して事前にトレーニングされている。その3つは、読み上げ音声のコーパスであるCommonVoice、電話での会話のコーパスであるBABEL、オーディオブックのコーパスであるMultilingual LibriSpeech（MLS）である。完全なデータセットには、53の言語で56,000時間以上の音声が含まれている。微調整されたモデルは、CommonVoiceとBABELで提供されるデータセットに対して評価される。チームは、さまざまなサイズのいくつかのモデルをトレーニングした。最大のモデルには、16個のアテンションヘッドを備えた1,204次元の24個のTransformerブロックが含まれていた。

リソースの少ない言語は、微調整でのみ使用され、事前トレーニングでは使用されない言語であるが、大規模なXSLRモデルはベースラインモデルよりも優れている。リソースの少ない言語は、関連する言語による事前トレーニングの恩恵を特に受ける。たとえば、追加でスペイン語データが事前トレーニングに含まれていると、イタリア語のパフォーマンスが向上する。研究者はまた、XSLRは、干渉、または言語間でのモデル容量の共有のために、リソースが多い言語では、ベースラインよりもパフォーマンスが悪くなることを指摘した。この干渉は、モデルの容量を増やし、事前トレーニング中に言語のサンプリングを調整することで軽減できる。

モデルの微調整に関するTwitterの質問にConneau氏は応えている。

アノテーション付きデータによる10分または1時間の微調整により...文字/音素認識のパフォーマンスが向上します。...教師付きが多いほど、パフォーマンスが向上します。

wav2vecとXSLRのモデルとコードは、GitHubで入手できる。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方