Google Researchは、1,200万時間以上のスピーチ音声で学習させた2Bパラメータの自動音声認識(ASR)モデルであるUniversal Speech Model(USM)を発表した。USMは、低リソース言語を含む100以上の言語の音声を認識でき、いくつかのベンチマークで新しい最先端の性能を達成した。
このモデルと実験は、arXivに掲載された論文に記載されている。USMは、Conformerベースのエンコーダをバックボーンとして使用し、300以上の言語を含むYouTube動画のラベルのない音声に対して教師なしで学習させる。また、Googleチームは、長時間の音声入力でConformerモデルによく見られる品質劣化の問題を解決するため、ネットワーク・アーキテクチャに新しいチャンクワイズ・アテンション機構を導入した。Googleチームは、下流タスクのためにモデル全体を微調整するのではなく、ASRと自動音声翻訳(AST)タスクのために、フローズンエンコーダーに小さなアダプターネットワークユニットを追加した。Googleは以下のように説明する。
USMは...英語や北京語のような広く話されている言語だけでなく、パンジャビ語、アッサム語、サンタル語、バリ語、ショナ語、マラガシ語、ルガンダ語、ルオ語、バンバラ語、ソガ語、マニンカ語、ショサ語、アカ語、リンガラ語、チチェワ語、ニャンコレ語、ンゼマ語などの言語でも自動音声認識 (ASR) を実行できる。これらの言語の中には、2,000万人以下の人口で話されているものもあり、必要な学習データを見つけるのは非常に困難である。我々は、ラベルのない大規模な多言語データセットを利用してモデルのエンコーダを事前学習し、より少ないラベル付きデータセットで微調整することで、学習データの少ない言語であっても認識できることを実証する。さらに、我々のモデル学習プロセスは、新しい言語やデータへの適応に有効である。
USMは、音声のみ、テキストのみ、音声とテキストのペアという3種類のデータを用いて、3段階で学習させた。最初の学習段階では、教師なし学習を使って、音声のみのデータでConformerエンコーダーのバックボーンを学習したのである。具体的には、300の言語からなる1200万時間のYouTube音声と、51の言語からなる42万9000時間の音声を含む公開データセットだ。次の段階では、MOST(Multi-Objective Supervised pre-Training)を用いて、3種類のデータすべてについてエンコーダーのトレーニングをした。最終段階では、タスクに特化したモデルの微調整をする。フルモデルを微調整する代わりに、エンコーダーを凍結し、タスクに特化した小さなアダプターを微調整することで、より良い結果を得られた。
USM Training Pipeline. Image Source: https://arxiv.org/abs/2303.01037
Googleチームは、複数のASRおよびASTベンチマークでUSMを評価した。USMは、SpeechStew、FLEURS、CoVoSTを含む複数のベンチマークで、新しい最先端の性能を達成したのである。また、73言語の音声を含むYouTubeのキャプションデータセットで、USMは30%以下の単語誤り率(WER)を達成した。Googleによると、このデータセットから"73言語すべてのデコードに成功した公開モデルはない。"また、研究者はUSMをOpenAIのWhisperモデルと比較し、"Whisperが40%以下のWERでデコードに成功した18言語"においてUSMがWhisperを上回ったとしている。
Hacker NewsでのUSMに関する議論では、利用可能な学習データの少なさを考慮し、低リソース言語でのUSMのパフォーマンスを評価するユーザーが複数いた。ある人はこう指摘する。
これは、コアエンコーダーモデル(大量のデータを持つ一般的な言語で学習したモデル)が、あらゆる言語の一般化された基本を学習するのに非常に優れていることを意味する。そして、最後に小言語の比較的少ない量のラベル付きデータを入力する(教師ありファインチューニング。パラメータは繰り返し調整されるため、最新のトレーニングデータが最終的な性能にもっとも大きな影響を与える)。このモデルは、言語間の文法に関する一般的な"理解"を十分に持っているので、その小さなラベル付きセットから得られないギャップを埋めることができる。
USMは現在、Google Cloud Platform上でプライベートホストされた推論APIを通じてのみ利用可能だ。ユーザーはアクセスをリクエストする必要があり、"研究者や機関 "に優先権が与えられている。