Facebookが多言語音声認識ディープラーニングモデルをオープンソース化

原文(投稿日：2021/01/26)へのリンク

Facebook AI Research（FAIR）はクロスリンガル音声認識（XSLR）、多言語音声認識AIモデルをオープンソース化した。XSLRは53の言語でトレーニングされており、一般的なベンチマークで評価すると、既存のシステムよりも優れている。

モデルアーキテクチャと関連する実験は、arXivで公開された論文に記載されている。XSLRはwav2vecアーキテクチャ上に構築されており、転移学習を使用して「低リソース」言語でのパフォーマンスを向上させている。このシステムは、53の言語を含む3つの公開データセットで事前トレーニングされている。CommonVoiceとBABELのベンチマークで評価すると、モデルは既存のベースラインを上回る。このシステムは、事前トレーニングにない言語を学習することもでき、その言語で特別にトレーニングされた単一言語モデルよりも優れている。第一著者のAlexis Conneau氏は次のように述べている。

私たちの目標は、リソースが多い言語からの教師なしデータを活用して、実際には少ないリソースの言語による数回の学習を可能にすることです。

深層学習モデルのトレーニングには、ラベル付きの例の大規模なデータセットが必要である。音声認識の場合、これは対応するテキストトランスクリプトを含む音声データを意味する。このようなデータセットの取得は、ヨーロッパ以外の言語では困難な場合がある。すぐに利用できるデータがないため、リソースの少ない言語と呼ばれることがよくある。この状況で、研究者は転移学習に目を向けている。つまり、公開されている大規模なデータセットで事前にトレーニングされたモデルを微調整するものである。この戦略は、BERTなどの一般的なSequence-to-Sequence自然言語Transformerモデルを使用して、Facebookなどによってニューラル機械翻訳に適用されている。

FAIRは、2019年に自動音声認識（ASR）用にオリジナルのwav2vecディープラーニングモデルを公開した。そして、2020年にwav2vec 2.0モデルを更新した。このモデルは、畳み込みニューラルネットワーク（CNN）機能エンコーダーを使用して、音声を量子化された潜在的な音声表現に変換される。それは、その後、Transformerに提供される。Transformerは、音声表現のシーケンスをテキストに変換する。事前トレーニングフェーズでは、潜在的な表現のうち一定の割合がマスクされ、ネットワークはマスクされた値を予測することを学習する。これは、BERTで使用されている、マスクされた言語モデルのトレーニングに類似している。

XSLRは、wav2vec 2.0と同じアーキテクチャを使用している。これは、3つのデータセットから抽出されたオーディオデータの多言語バッチを使用して事前にトレーニングされている。その3つは、読み上げ音声のコーパスであるCommonVoice、電話での会話のコーパスであるBABEL、オーディオブックのコーパスであるMultilingual LibriSpeech（MLS）である。完全なデータセットには、53の言語で56,000時間以上の音声が含まれている。微調整されたモデルは、CommonVoiceとBABELで提供されるデータセットに対して評価される。チームは、さまざまなサイズのいくつかのモデルをトレーニングした。最大のモデルには、16個のアテンションヘッドを備えた1,204次元の24個のTransformerブロックが含まれていた。

リソースの少ない言語は、微調整でのみ使用され、事前トレーニングでは使用されない言語であるが、大規模なXSLRモデルはベースラインモデルよりも優れている。リソースの少ない言語は、関連する言語による事前トレーニングの恩恵を特に受ける。たとえば、追加でスペイン語データが事前トレーニングに含まれていると、イタリア語のパフォーマンスが向上する。研究者はまた、XSLRは、干渉、または言語間でのモデル容量の共有のために、リソースが多い言語では、ベースラインよりもパフォーマンスが悪くなることを指摘した。この干渉は、モデルの容量を増やし、事前トレーニング中に言語のサンプリングを調整することで軽減できる。

モデルの微調整に関するTwitterの質問にConneau氏は応えている。

アノテーション付きデータによる10分または1時間の微調整により...文字/音素認識のパフォーマンスが向上します。...教師付きが多いほど、パフォーマンスが向上します。

wav2vecとXSLRのモデルとコードは、GitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

Kubescape 4.0、Kubernetesに実行時セキュリティとAIエージェントスキャン機能を追加

Amazon CloudWatch、OpenTelemetryメトリクス対応をプレビュー公開

Googleがノードプール自動作成速度を向上、GKEクラスタ向け

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027